Self-Attention 的基本結構與計算
Attention(注意力)實際上就是權重的另一種應用的稱呼,其具體結構與初始輸入的 content \(\vec{x_{1}}, \vec{x_{2}}, \cdots, \vec{x_{n}} \in \mathcal{X}\) 緊密相關,其中, \(\vec{x_{1}}, \vec{x_{2}}, \cdots, \vec{x_{n}}\) 為維度相同(設為 \(d\),即 \(\vec{x_{i}} \in \mathbb{R}^{d}\) for \(\forall 1 \leq i \leq n\))的向量,所謂 word embedding,實質是用低維的向量表示物體,但是,表示時需要注意,對于任意兩種不同物體的 embedding,若兩物體本身有著相似的屬性(這個定義可以比較抽象,例如,綠巨人與鋼鐵俠、在地理上相近的兩個物體、相似的聲音等等都能稱作具有某種相似的屬性,具體需要看模型的任務和目的是什么),那么它們的 embedding 向量經過某種計算出來的結果,或 “距離” 需要很近,反之,如果兩件物體風馬牛不相及,或者在模型中我們極力希望將它們分開,那么它們的 embedding 相計算出的 “距離” 應當很遠,
例如,在NLP任務中每個 \(\vec{x_{i}}\) 代表了一個 word embedding(原論文中每個word embedding 的維度 = 512,i.e., \(d = 512\)),我們的實際任務是,對于每一個 \(\vec{x_{i}}\),分別計算其對應的 attention \(A_{i}\),具體計算方法如下:
對于每一個 word embedding \(\vec{x_{i}} \in \mathbb{R}^{d}\),分別計算
- query: \(\vec{q_{i}} = \vec{x_{i}} W^{Q} \in \mathbb{R}^{d}\)
- key:\(\vec{k_{i}} = \vec{x_{i}} W^{K} \in \mathbb{R}^{d}\)
- value:\(\vec{v_{i}} = \vec{x_{i}} W^{V} \in \mathbb{R}^{d}\)
其中,\(W^{Q}, W^{K}, W^{V}\) 分別為 \(d \times d\) 的引數方陣,那么 \(\vec{q_{i}}, \vec{k_{i}}, \vec{v_{i}}\) 皆為 \(d\) 維行向量,對于 \(1 \leq i \leq n\),可以合并寫為矩陣形式,i.e.,
\[X_{n\times d} = \begin{pmatrix} —— ~ \vec{x_{1}} ~ —— \\ —— ~ \vec{x_{2}} ~ —— \\ \vdots \\ —— ~ \vec{x_{n}} ~ —— \\ \end{pmatrix} ~\\ ~\\ Q_{n\times d} = X W^{Q} = \begin{pmatrix} —— ~ \vec{x_{1}} ~ —— \\ —— ~ \vec{x_{2}} ~ —— \\ \vdots \\ —— ~ \vec{x_{n}} ~ —— \\ \end{pmatrix} \begin{pmatrix} & \Big| & \Big| & & \Big| \\ & \vec{w^{Q}_{1}}, & \vec{w^{Q}_{2}}, & \cdots, &\vec{w^{Q}_{d}}\\ & \Big| & \Big| & & \Big| \\ \end{pmatrix} = \begin{pmatrix} —— ~ \vec{q_{1}} ~ —— \\ —— ~ \vec{q_{2}} ~ —— \\ \vdots \\ —— ~ \vec{q_{n}} ~ —— \\ \end{pmatrix} ~\\ ~\\ K_{n\times d} = X W^{K} = \begin{pmatrix} —— ~ \vec{x_{1}} ~ —— \\ —— ~ \vec{x_{2}} ~ —— \\ \vdots \\ —— ~ \vec{x_{n}} ~ —— \\ \end{pmatrix} \begin{pmatrix} & \Big| & \Big| & & \Big| \\ & \vec{w^{K}_{1}}, & \vec{w^{K}_{2}}, & \cdots, &\vec{w^{K}_{d}}\\ & \Big| & \Big| & & \Big| \\ \end{pmatrix} = \begin{pmatrix} —— ~ \vec{k_{1}} ~ —— \\ —— ~ \vec{k_{2}} ~ —— \\ \vdots \\ —— ~ \vec{k_{n}} ~ —— \\ \end{pmatrix} ~\\ ~\\ V_{n\times d} = X W^{V} = \begin{pmatrix} —— ~ \vec{x_{1}} ~ —— \\ —— ~ \vec{x_{2}} ~ —— \\ \vdots \\ —— ~ \vec{x_{n}} ~ —— \\ \end{pmatrix} \begin{pmatrix} & \Big| & \Big| & & \Big| \\ & \vec{w^{V}_{1}}, & \vec{w^{V}_{2}}, & \cdots, &\vec{w^{V}_{d}}\\ & \Big| & \Big| & & \Big| \\ \end{pmatrix} = \begin{pmatrix} —— ~ \vec{v_{1}} ~ —— \\ —— ~ \vec{v_{2}} ~ —— \\ \vdots \\ —— ~ \vec{v_{n}} ~ —— \\ \end{pmatrix} \]如上所示,\(\vec{w^{Q}_{i}}, \vec{w^{K}_{i}}, \vec{w^{V}_{i}}\) 為 \(d \times 1\) 的列向量 for \(\forall 1 \leq i \leq d\),
現在,對于 word embedding \(\vec{x_{i}}\),已求得其對應的\(\vec{q_{i}}, \vec{k_{i}}, \vec{v_{i}}\),因此 \(\vec{x_{i}}\) 的 attention 記作:
\[A_{i}(q_{i}, K, V) = \sum\limits^{n}_{i=1} \frac{\exp(q_{i}k_{i}^{T})}{\sum\limits^{n}_{j=1} \exp(q_{j}k_{j}^{T})} v_{i} \]其中,\(q_{i}k_{i}^{T}\) 與 \(q_{j}k_{j}^{T}\) 代表了 query 與 key 的內積,結果為標量,則 \(A_{i}(q_{i}, K, V)\) 的維度與最后乘上的 value \(v_{i}\) 相同,即為 \(1 \times d\) 的行向量,由于一共有 \(n\) 個 word embedding (\(1 \leq i \leq n\)),對應地,最終也應有 \(n\) 個維度為 \(1 \times d\) 的attention,寫作矩陣形式為:
\[A(X) = A(Q, K, V) = \mbox{softmax} \big( \frac{QK^{T}}{\sqrt{d}} \big) V \]\(A(X)\) 即為 \(n \times d\) 的矩陣,softmax 定義為:
\[\mbox{softmax}(z_{i}) = \frac{e^{z_{i}}}{\sum\limits^{n}_{j=1}e^{z_{j}}} \]注意,最終式中除以\(\sqrt{d}\) 的原因是,維度 \(d\) 的增大會導致整個向量的方差增大,因此更容易出現極端值(即非常大與非常小的值),使 softmax 的梯度變得極小,
從 Nadaraya–Watson Kernel Regression 到 Attention
Attention 其實就是 Nadaraya–Watson Kernel Regression 在 Deep Learning 中的應用,核心思想完全一致,實際上這種思想在機器學習中隨處可見,尤其在非參估計(Non-parametric estimation)中,
線性回歸及其衍生(e.g. Lasso, Ridge and etc.)存在的一個缺陷是,如果我們不知道independent variables 與 dependent variables 之間聯系的引數形式,那么就無法建立模型并對引數進行估計,因此,Kernel Regression 所解決的便是在沒有模型假設的情況下對一個新的 test point \(\vec{x}\) 進行 label 的預測,
一個順應邏輯的想法是,將新的 test point \(\vec{x}\) 的 local neighborhood \(X\) 中所包含的全部 observed data (or training data)的 label 的平均值視為 estimate \(\hat{y}\),即:
\[\hat{y} = f(\vec{x}) = \mbox{average estimate } y \mbox{ of observed data in a local neighborhood } X \mbox{ of } \vec{x} \]也就是說,對于新的 test data \(\vec{x}\), 它的 label 可以被估計為鄰域中所有已知資料的 label 的平均值,當然,我們對于鄰域的選擇是靈活的,并且 “平均值” 也只是其中一種估計法,總得來說,我們有 Kernel Regression 的一般式:
\[\hat{y} = \hat{f_{n}}(\vec{x}) = \sum\limits^{\infty}_{i=1} w_{i}(\vec{x}) y_{i} \]其中,\(w_{i}(\vec{x})\) 為突顯 local observation 的權重,定義為:
\[w_{i}(x) = \frac{K_{h}(x, x_{i})}{\sum\limits^{n}_{j=1} K_h(x, x_{j})} \]對于 Kernel Regression 中 “核” (即kernel,或 localization function) 的選擇,一般來說有:
-
Gaussian Kernal: \(\quad K_{h}(x, x^{'}) = e^{-\frac{||x - x^{'}||^{2}}{h}}\)
-
Box Kernel: \(\quad K_{h}(x, x^{'}) = \mathbb{I}_{\left\{ ||x-x^{'}|| \leq h \right\}}\)
-
Triangle Kernel: \(\quad K_{h}(x, x^{'}) = \left[ 1 - \frac{||x - x^{'}||}{h} \right]_{+}\)
Kernel 的選擇是靈活的,其本質只是衡量任意 observed data 對一個新資料點的預測值的貢獻程度,因此通常滿足:對于距待預測資料 \(\vec{x}\) 越近的 \(\vec{x_{i}}\),所得到的函式結果 \(K_{h}(\vec{x}, \vec{x_{i}})\) 應越大,
到這里我們可以很清晰地發現,attention 就是一個運用了 exponential function 作為 kernel 的權重運算結果,因此,attention 的計算也可以形象地寫為:
- 根據已知資料 \(x_{i}\) 與相應的 label \(y_{i}\) (\(1 \leq i \leq n\)) ,預測在 \(x\) 處的 label \(y\),\(x\) 即為要查詢的 query,\(x_{i}\) 即為 key,\(y_{i}\) 即為 value,滿足:
同時,這也揭示了為什么它的名字叫做 “attention(注意力)”,這個注意力就像 Kernel Regression 我們取的 local neighborhood,代表了我們在預測 \(\vec{x}\) 的 label 時,注意力放在了結果權重大的 neighborhood 中,而對于 neighborhood 以外,權重相對很小,因此不需要過分關注,
Attention 結構的意義
現在我們知道:
\[A(X) = A(Q, K, V) = \mbox{softmax} \big( \frac{QK^{T}}{\sqrt{d}} \big) V \]其中 \(Q = X W^{Q}, K = X W^{K}, V = X W^{V}\),
我們知道,\(X W^{Q}\) (\(XW^{K}, XW^{V}\) 同理) 的本質是將 \(X\) 中的各行向量:\(\vec{x_{1}}, \vec{x_{2}}, \ldots, \vec{x_{n}}\) 變換到 \(W^{Q}\) 中以各列向量:\(\vec{w^{Q}_{1}}, \vec{w^{Q}_{2}}, \ldots, \vec{w^{Q}_{d}}\)為基所表示的向量空間中,所得新矩陣的第 \(m\) 列,為 \(X\) 在 \(W^{Q}\) 的第 m 個基(即 \(\vec{w^{Q}_{m}}\))上的投影, 那么, 對于公式中分子 \(Q K^{T}\),本質上是變換到兩個向量空間中的 \(X\) 的矩陣相乘,
\[QK^{T} = XW^{Q} (W^{K})^{T} X^{T} \]從實際意義上可以理解為:
\[X X^{T} = \begin{pmatrix} —— ~ \vec{x_{1}} ~ —— \\ —— ~ \vec{x_{2}} ~ —— \\ \vdots \\ —— ~ \vec{x_{n}} ~ —— \\ \end{pmatrix} \begin{pmatrix} & \Big| & \Big| & & \Big| \\ & \vec{x_{1}}^{T}, & \vec{x_{2}}^{T}, & \cdots, &\vec{x_{d}}^{T}\\ & \Big| & \Big| & & \Big| \\ \end{pmatrix} \]以上的矩陣運算實際上是令 \(\vec{x_{1}}, \vec{x_{2}}, \ldots, \vec{x_{n}}\) 兩兩分別做內積(包括與自身),而向量內積:
\[a \cdot b = |a| \cdot |b| \cdot \cos \theta \]其中 \(\theta\) 為向量 \(a, b\) 之間的夾角,因此,內積運算反映了兩個向量相似度,當兩個向量越相似,即夾角越小,i.e. \(\theta \rightarrow 0, \cos \theta \rightarrow 1\),導致內積越大,也就是其中一向量越能 “代表” 另一向量,通俗的解釋即: “注意力在此處更集中”,
本文來自博客園,作者:車天健,轉載請注明原文鏈接:https://www.cnblogs.com/chetianjian/p/16684008.html
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/506143.html
標籤:其他
