Đã đăng vào thg 2 11, 6:21 SA 9 phút đọc

103

Deep Dive – Phân Tích Chi Tiết LSTM: Giữ Thông Tin Lâu Dài, So Sánh với RNN và Công Thức Toán Học 🔍

👋 Chào mừng bạn quay trở lại! Nếu bạn đã theo dõi bài Tìm Hiểu LSTM: Bí Quyết Giữ Thông Tin Lâu Dài Hiệu Quả 🧠🔗 trước đó, bạn sẽ biết LSTM vượt trội RNN nhờ cell state và cổng điều khiển. Nhưng làm sao cell state "sống sót" qua chuỗi dài? Tại sao gradient không biến mất? Hôm nay, chúng ta sẽ "đào sâu" vào:

Cơ chế lưu trữ thông tin qua Forget/Input/Output gates.
So sánh trực tiếp LSTM vs RNN qua góc nhìn toán học.
Breakdown từng công thức – hiểu tường tận cách LSTM học!

LSTM Architecture

Cell State: "Siêu Năng Lực" Giữ Thông Tin Dài Hạn 🦸♀️

Forget Gate có nhiệm vụ giảm trọng số cho các thông tin không liên quan, giúp mô hình tập trung vào những dữ liệu thiết yếu. Cơ chế này sử dụng hàm sigmoid để “quét” qua thông tin cũ và chỉ giữ lại phần quan trọng.

Ví dụ, khi xử lý câu "Tôi thích ăn táo vì chúng...", nếu mô hình đã xác định chủ đề chính là "táo", thì Forget Gate sẽ giảm trọng số của cụm từ "Tôi thích", loại bỏ thông tin không cần thiết và giúp tập trung vào ý chính của câu.
Input Gate có nhiệm vụ kiểm soát và lựa chọn thông tin mới cần được thêm vào cell state. Cơ chế này sử dụng hàm sigmoid để đánh giá mức độ quan trọng của dữ liệu mới, kết hợp với hàm tanh tạo ra các giá trị ứng cử, đảm bảo rằng chỉ những thông tin thiết yếu mới được lưu trữ.

$\rightarrow$ Cell state như một bộ lọc thông minh:

$C_t = \underbrace{f_t \odot C_{t-1}}_{\text{Quên có chọn lọc}} + \underbrace{i_t \odot \tilde{C}_t}_{\text{Thêm thông tin tinh gọn}}$

LSTM vs RNN: Cuộc Đua Của Gradient 🏎️

Vấn Đề Của RNN

Recurrent Neural Networks (RNN) gặp một số vấn đề quan trọng liên quan đến gradient khi lan truyền ngược (backpropagation through time - BPTT):

Hidden State Trong RNN:

Hidden state được tính toán theo công thức:

$h_t = \tanh(W \cdot [h_{t-1}, x_t] + b)$
Trong đó:
- $h_t$ là hidden state tại thời điểm $t$ .
- $W$ là ma trận trọng số.
- $x_t$ là đầu vào tại thời điểm $t$ .
- $b$ là bias.
Vấn Đề Gradient Vanishing

Gradient phụ thuộc vào tích ma trận $\prod_{k=1}^{t} \frac{\partial h_k}{\partial h_{k-1}}$ .

Khi số bước thời gian $t$ tăng lên, nếu các phần tử trong ma trận có giá trị nhỏ hơn 1, gradient sẽ suy giảm theo hàm mũ, dẫn đến vanishing gradient. Điều này làm cho các trạng thái ban đầu của chuỗi dữ liệu gần như không có ảnh hưởng đến đầu ra cuối cùng.

LSTM Cải Thiện Thế Nào?

Long Short-Term Memory (LSTM) được thiết kế để giải quyết vấn đề gradient vanishing bằng cách sử dụng cell state thay vì chỉ dựa vào hidden state như RNN.

Gradient Chủ Yếu Truyền Qua Cell State

$\frac{\partial C_t}{\partial C_{t-1}} = f_t + (\text{đạo hàm các thành phần khác})$
Ở đây, $f_t$ là gate kiểm soát mức độ thông tin được giữ lại từ trạng thái trước đó.
Giữ Gradient Không Đổi Khi Cần Thiết

Khi $f_t \approx 1$ (tức là khi LSTM cần giữ thông tin lâu dài), gradient gần như không thay đổi theo thời gian. Điều này giúp tránh hiện tượng vanishing gradient, cho phép LSTM ghi nhớ thông tin từ các bước thời gian xa hơn so với RNN.

Giải Mã Toán Học 🧮

1. Các thành phần cốt lõi của một cell LSTM

Forget Gate ( $f_t$ ): Quyết định loại bỏ những thông tin không cần thiết từ cell state.
Input Gate ( $i_t$ ): Quyết định thông tin mới nào sẽ được lưu trữ.
Output Gate ( $o_t$ ): Quyết định thông tin nào sẽ được xuất ra làm hidden state cho bước tiếp theo.
Cell State ( $C_t$ ): Bộ nhớ dài hạn (được cập nhật tại mỗi bước thời gian).
Hidden State ( $h_t$ ): Bộ nhớ ngắn hạn (được suy ra từ cell state).

2. Các phương trình toán học

Tại mỗi bước thời gian $t$ , với đầu vào $x_t$ và các trạng thái trước đó $h_{t-1}$ cũng như $C_{t-1}$ , LSTM tính toán như sau:

Bước 1: Forget Gate

$f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)$

Mục đích: Quyết định bao nhiêu phần của $C_{t-1}$ (cell state trước đó) cần bị loại bỏ.

Đầu vào: Concatenation của $h_{t-1}$ (trạng thái ẩn trước đó) và $x_t$ (đầu vào hiện tại).

Trọng số: $W_f$ (trọng số của Forget Gate), $b_f$ (bias).

Hàm kích hoạt: Hàm sigmoid $\sigma$ cho ra giá trị trong khoảng từ 0 (loại bỏ) đến 1 (giữ lại).

Bước 2: Input Gate & Candidate Cell State

$i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i) \quad,\quad \tilde{C}_t = \tanh(W_C \cdot [h_{t-1}, x_t] + b_C)$

Mục đích:

$i_t$ : Quyết định lượng của $\tilde{C}_t$ (candidate cell state) sẽ được thêm vào $C_t$ .
$\tilde{C}_t$ : Tạo ra giá trị đề xuất cập nhật cho cell state.

Trọng số: $W_i, W_C$ (trọng số cho input gate & candidate cell state), $b_i, b_C$ (bias).

Hàm kích hoạt:

Hàm sigmoid $\sigma$ điều chỉnh giá trị của candidate cell state.
Hàm $\tanh$ nén các giá trị về khoảng $[-1,1]$ nhằm đảm bảo cập nhật ổn định.

Bước 3: Update Cell State

$C_t = f_t \odot C_{t-1} + i_t \odot C̃$

Mục đích: Kết hợp thông tin cũ $C_{t-1}$ với thông tin mới $\tilde{C}_t$ .

Phép toán:

$f_t \odot C_{t-1}$ : Phép nhân từng phần $\odot$ giúp loại bỏ các phần không cần thiết của $C_{t-1}$ .
$i_t \odot \tilde{C}_t$ : Thêm thông tin mới có liên quan từ $\tilde{C}_t$ .

Bước 4: Output Gate & Hidden State

$o_t=σ(W_o⋅[h_{t−1},x_t]+b_o) \\ h_t=o_t \odot tanh⁡(C_t)$

Mục đích:

$o_t$ : Quyết định phần nào của $C_t$ sẽ được xuất ra làm $h_t$ .
$h_t$ : Trạng thái ẩn được truyền cho bước thời gian tiếp theo.

Trọng số: $W_o$ (trọng số của output gate), $b_o$ (bias).

Hàm kích hoạt:

$o_t$ : Hàm sigmoid $\sigma$ lọc thông tin từ $C_t$ .
$\tanh$ : Nén giá trị của $C_t$0 về khoảng $[-1, 1]$ trước khi nhân với $o_t$ .

3. Các chi tiết quan trọng cần được giải thích

A. Concatenation của $h_{t-1}$ và $x_t$

Đầu vào của mỗi cổng là sự nối kết của trạng thái ẩn trước đó $h_{t-1}$ và đầu vào hiện tại $x_t$ :

$[h_{t-1}, x_t] = \text{concat}(h_{t-1}, x_t)$

Điều này cho phép LSTM đưa ra quyết định dựa trên cả ngữ cảnh quá khứ và thông tin hiện tại.

B. Chia sẻ Tham số

Các trọng số $(W_f, W_i, W_C, W_o)$ và bias $(b_f, b_i, b_C, b_o)$ được sử dụng lại ở mọi bước thời gian, tương tự như trong RNN. Điều này giúp giảm số lượng tham số và cho phép xử lý các chuỗi có độ dài thay đổi.

C. Kích thước (Dimensions)

Giả sử:

$n$ là kích thước của hidden state.
$m$ là kích thước của đầu vào.

Ta có:

$h_{t-1}:$ Kích thước $(n, 1)$ .
$x_t :$ Kích thước $(m, 1)$
$[h_{t-1}, x_t ]:$ Kích thước $(n + m, 1)$
$(W_f, W_i, W_c, W_o):$ Kích thước $(n, n+m)$ .
$C_t, h_t:$ Kích thước $(n,1)$

D. Các Hàm Kích Hoạt

Hàm Sigmoid ( $\sigma$ )
- Được sử dụng trong các cổng $(f_t, i_t, o_t)$ để cho ra giá trị trong khoảng từ 0 đến 1.
- Ví dụ: $f_t = 0.9$ nghĩa là giữ lại $90\%$ của $C_{t-1}$ .
Hàm Hyperbolic Tangent ( $\tanh$ )
- Được sử dụng trong $\tilde{C}_t$ và $h_t$ để nén các giá trị về khoảng $[-1,1]$ .
- Ngăn chặn hiện tượng gradient bùng nổ và tạo tính phi tuyến cho mô hình.

🎯 Kết Luận

Qua bài viết này, chúng ta đã cùng nhau khám phá chi tiết cách hoạt động của LSTM, từ cơ chế cổng tinh vi cho đến việc duy trì thông tin dài hạn một cách hiệu quả. Hiểu được cách LSTM quản lý thông tin qua các bước thời gian không chỉ giúp ta nhận thức rõ hơn về cách các mô hình deep learning xử lý dữ liệu chuỗi mà còn mở ra cánh cửa để tìm hiểu sâu hơn về các kiến trúc tiên tiến khác trong lĩnh vực xử lý ngôn ngữ tự nhiên.

Nếu bạn đã cảm thấy hứng thú với việc làm thế nào các mô hình như LSTM “ghi nhớ” được thông tin quan trọng qua nhiều bước, thì hãy tiếp tục hành trình khám phá của mình! Bước tiếp theo, chúng ta sẽ chuyển sang Word2vec – công cụ mạnh mẽ giúp biểu diễn từ ngữ dưới dạng vector, tạo nền tảng cho những bước tiến vượt bậc trong các mô hình NLP hiện đại như Transformers.

👉 Đừng bỏ lỡ bài viết về Word2vec – Giải Mã Mô Hình Biểu Diễn Ngôn Ngữ Trước Khi Đến Với Transformers để cùng khám phá cách các từ được chuyển hóa thành các vector số học có ý nghĩa và tìm hiểu cách mà bước chuyển này tạo nền tảng cho các kiến trúc tiên tiến trong NLP!

Cảm ơn bạn đã đồng hành cùng bài viết này – hẹn gặp lại trong hành trình khám phá sâu hơn về thế giới của NLP và Deep Learning!