【李宏毅深度學習CP10】Self-attention（part1）-有解無憂

學習心得

（1）傳統的Attention是基于source端和target端的隱變數（hidden state）計算Attention的，得到的結果是源端的每個詞與目標端每個詞之間的依賴關系，但Self Attention不同，它分別在source端和target端進行，僅與source input或者target input自身相關的Self Attention，捕捉source端或target端自身的詞與詞之間的依賴關系；然后再把source端的得到的self Attention加入到target端得到的Attention中，捕捉source端和target端詞與詞之間的依賴關系，

（2）self Attention Attention比傳統的Attention mechanism效果要好，主要原因之一是，傳統的Attention機制忽略了源端或目標端句子中詞與詞之間的依賴關系，相對比，self Attention可以不僅可以得到源端與目標端詞與詞之間的依賴關系，同時還可以有效獲取源端或目標端自身詞與詞之間的依賴關系，

文章目錄

- 學習心得
- 一、復雜的Input時
- 二、Vector Set as Input
- - 2.1 文字處理
  - - 1)One-Hot的Encoding
    - 2)Word Embedding
  - 2.2聲音信號
  - 2.3 圖
  - 2.4 分子資訊
- 三、What is the output?
- - 3.1 每一個向量都有一個對應的Label
  - - 1)詞性標注
    - 2)語音識別
    - 3）Social Network
  - 3.2 一整個Sequence,只需要輸出一個Label
  - - 1）文字的情感分析
    - 2)語音識別
    - 3）圖
  - 3.3 機器要自己決定,應該要輸出多少個Label
- 四、Sequence Labeling
- 五、Self-Attention
- - Self-Attention程序
  - - 1.怎么產生 b 1 b^1 b1這個向量
    - 2.計算α
    - 3.求 b 1 b^1 b1
- Reference

一、復雜的Input時

到目前為止學的Network的輸入都是一個向量（比如CV還是youtube視頻等的輸入都可以看做一個向量），而輸出可能一個數值（如類別等），
在這里插入圖片描述
更復雜的去情況：輸入是多個向量（且這個輸入的向量的數目會改變），在上一節CNN我們還強調了假設輸入的圖片大小是相同，

現在我們假設我們的模型輸入的Sequence的數目、長度都不一樣，

二、Vector Set as Input

2.1 文字處理

Network的輸入是一個句子，每個句子的長度不一樣，單詞也不一樣，
在這里插入圖片描述
如果把句子里的每個單詞都描述成一個向量，那么模型model的輸入就是一個vector set——該set的大小每次都不一樣（句子的長度不同），

1)One-Hot的Encoding

如何把一個詞匯表示成一個向量——最簡單的是One-Hot的Encoding

開一個很長的向量，其長度和世界上存在的詞匯數相同，每一個維度對應到一個詞匯，Apple就是100，Bag就是010，Cat就是001，以此類推，

缺點：
它假設了所有的詞匯之間沒有關系的，從該向量看不到Cat和Dog都是動物所以他們比較接近，Cat和Apple一個動物一個植物，所以兩者不太大關系，
在這個大向量里，沒有任務的語意的資訊，

2)Word Embedding

給每一個詞匯一個向量（該向量是有語意的資訊的），如果把Word Embedding畫出來，會看到如下圖所示的所有動物聚集成一團，所有的植物聚集成一團，所有的動詞聚集成一團，
在這里插入圖片描述

可以參考：https://youtu.be/X7PH3NuYW0Q

2.2聲音信號

一段聲音訊號就是一排向量，我們可以把一段聲音信號取一個范圍（該范圍稱為一個window），把該window里面的資訊描述成一個向量（稱為一個Frame），通常這個window長度就是25個Millisecond，
在這里插入圖片描述
把這一段的聲音訊號變成一個Frame有很多種方法（此處不細講），
一小段25Millisecond里面的語音信號，為了描述一整段的聲音信號，需要把這個window往右移一點，通常移動的大小是10個Millisecond，

一段聲音訊號,你就是用一串向量來表示,而因為每一個Window啊,他們往右移都是移動10個Millisecond,所以一秒鐘的聲音訊號有100個向量,所以一分鐘的聲音訊號,就有這個100乘以60,就有6000個向量

2.3 圖

社交網路就是一個圖，可以看做是一堆向量組成的：
節點：每個節點可看做一個向量，如每個人的簡歷里面的性別、年齡、作業等，這些資訊可以用一個向量來表示
邊：兩個人的關系連接，如是否為朋友等
在這里插入圖片描述

2.4 分子資訊

一個分子也可看做是一個圖，一個分子可看做是一個圖，分子上面的每個球就是一個原子（可以描述成一個向量），
在這里插入圖片描述
一個原子可以用One-Hot Vector來表示,氫就是1000,碳就是0100,然后這個氧就是0010,所以一個分子就是一個Graph,它就是一堆向量，

三、What is the output?

輸入是一堆向量,它可以是文字,可以是語音,可以是Graph，這樣輸出是有三種可能的，

3.1 每一個向量都有一個對應的Label

這種情況是說輸入和輸出一樣數量，
當你的模型,看到輸入是四個向量的時候,它就要輸出四個Label,而每一個Label,它可能是一個數值,那就是Regression的問題,如果每個Label是一個Class,那就是一個Classification的問題
在這里插入圖片描述

1)詞性標注

在文字處理上的,POS Tagging就是詞性標註,你要讓機器自動決定每一個詞匯它是什麼樣的詞性,它是名詞還是動詞還是形容詞等等，

如現在給出句子：I saw a saw并不是“我看一個看”,而是“我看到一個鋸子”,這個第二個saw當名詞用的時候,它是鋸子，那所以機器要知道,第一個saw是個動詞,第二個saw雖然它也是個saw,但它是名詞,但是每一個輸入的詞匯,都要有一個對應的輸出的詞性

2)語音識別

參照作業2

雖然我們作業二,沒有給大家一個完整的Sequence,我們是把每一個每一個每一個Vector分開給大家了,但是串起來就是一段聲音訊號裡面,有一串Vector,每一個Vector你都要決定,它是哪一個Phonetic，這是一個語音辨識的簡化版

3）Social Network

你的Model要決定每一個節點,它有什麼樣的特性,比如說他會不會買某一個商品,這樣我們才知道要不要推薦某一個商品給他

3.2 一整個Sequence,只需要輸出一個Label

在這里插入圖片描述

1）文字的情感分析

如果是文字的話,我們就說Sentiment Analysis，Sentiment Analysis就是給機器看一段話,它要決定說這段話是正面的還是負面的

比如在淘寶上商家要分析用戶評價，不可能分析每一句話，這個是Sentiment Analysis給一整個句子,只需要一個Label,那Positive或Negative,那這個就是第二類的輸出

2)語音識別

那如果是語音的例子的話呢,在作業四裡面我們會做語者辨認,機器要聽一段聲音,然后決定他是誰講的

3）圖

或者是如果是Graph的話呢,今天你可能想要給一個分子,然后要預測說這個分子,比如說它有沒有毒性,或者是它的親水性如何,那這就是給一個Graph 輸出一個Label

3.3 機器要自己決定,應該要輸出多少個Label

我們不知道應該輸出多少個Label,機器要自己決定,應該要輸出多少個Label,可能你輸入是N個向量,輸出可能是N’個Label
在這里插入圖片描述
這種任務又叫做sequence to sequence的任務,在作業五會有sequence to sequence的作業,所以這個之后我們還會再講

翻譯就是sequence to sequence的任務,因為輸入輸出是不同的語言,它們的詞匯的數目本來就不會一樣多
或者是語音辨識也是,真正的語音辨識也是一個sequence to sequence的任務,輸入一句話,然后輸出一段文字,這也是一個sequence to sequence的任務

四、Sequence Labeling

ps：第二種型別有作業四,感興趣可以去看看作業四的程式，因為上課時間有限,所以這次是先只講第一個型別（每一個向量都有一個對應的Label），也就是輸入跟輸出數目一樣多的狀況（又叫做Sequence Labeling）,你要給Sequence裡面的每一個向量,都給它一個Label,那要怎麼解Sequence Labeling的問題呢，那直覺的想法就是我們就拿個Fully-Connected的Network
在這里插入圖片描述
然后雖然這個輸入是一個Sequence,但我們就各個擊破,不要管它是不是一個Sequence,把每一個向量,分別輸入到Fully-Connected的Network裡面，然后Fully-Connected的Network就會給我們輸出,那現在看看,你要做的是Regression還是Classification,產生正確的對應的輸出,就結束了,

缺陷：后面這一個saw跟前面這個saw完全一模一樣，既然Fully-Connected的Network輸入同一個詞匯,它沒有理由輸出不同的東西，但實際上,你期待第一個saw要輸出動詞,第二個saw要輸出名詞,但對Network來說它不可能做到,因為這兩個saw 明明是一模一樣的,你叫它一個要輸出動詞,一個要輸出名詞,它會非常地困惑,完全不知道要怎麼處理

有沒有可能讓Fully-Connected的Network,考慮更多的,比如說背景關系的Context的資訊呢，這是有可能的,你就把前后幾個向量都串起來,一起丟到Fully-Connected的Network就結束了
在這里插入圖片描述

在作業二裡面,我們不是只看一個Frame,去判斷這個Frame屬於哪一個Phonetic,也就屬於哪一個音標,而是看這個Frame的前面五個加后面五個,也就總共看十一個Frame,來決定它是哪一個音標

在這里插入圖片描述

所以我們可以給Fully-Connected的Network,一整個Window的資訊,讓它可以考慮一些背景關系的,跟我現在要考慮的這個向量,相鄰的其他向量的資訊

但是這樣子的方法還是有極限,作業二就算是給你Sequence的資訊,你考慮整個Sequence,你可能也很難再做的更好啦,作業二考慮前后五個Frame,其實就可以得到很不錯的結果了,所以你要過Strong Baseline,重點并不在於考慮整個Sequence,你就不需要往那個方向想了,用助教現有給你的Data,你就可以輕易的過Strong Baseline,

但是真正的問題,但是如果今天我們有某一個任務,不是考慮一個Window就可以解決的,而是要考慮一整個Sequence才能夠解決的話,那要怎麼辦呢
在這里插入圖片描述
那有人可能會想說這個很容易，我就把Window開大一點啊,大到可以把整個Sequence蓋住就結束了，但是，今天Sequence的長度是有長有短的,我們剛才有說,我們輸入給我們的Model的Sequence的長度,每次可能都不一樣

如果你今天說我真的要開一個Window,把整個Sequence蓋住,那你可能要統計一下你的訓練資料,然后看看你的訓練資料裡面,最長的Sequence有多長,然后開一個Window比最長的Sequence還要長,你才有可能把整個Sequence蓋住

但是你開一個這麼大的Window,意味著你的Fully-Connected的Network,它需要非常多的引數,那可能不只運算量很大,可能還容易Overfitting

五、Self-Attention

所以有沒有更好的方法,來考慮整個Input Sequence的資訊呢——Self-Attention
Self-Attention的運作方式就是,Self-Attention會吃一整個Sequence的資訊
在這里插入圖片描述
然后你Input幾個Vector,它就輸出幾個Vector,比如說你這邊Input一個深藍色的Vector,這邊就給你一個另外一個Vector，這邊給個淺藍色,它就給你另外一個Vector,這邊輸入4個Vector,它就Output 4個Vector，
——那這4個Vector有什麼特別的地方呢,這4個Vector,他們都是考慮一整個Sequence以后才得到的，所以這邊每一個向量,我們特別給它一個黑色的框框代表說它不是一個普通的向量
在這里插入圖片描述
如此一來你這個Fully-Connected的Network,它就不是只考慮一個非常小的范圍,或一個小的Window,而是考慮整個Sequence的資訊,再來決定現在應該要輸出什麼樣的結果，這個就是Self-Attention，

Self-Attention不是只能用一次,你可以疊加很多次，所以可以把Fully-Connected的Network,跟Self-Attention交替使用
在這里插入圖片描述

Self-Attention處理整個Sequence的資訊
Fully-Connected的Network,專注於處理某一個位置的資訊
再用Self-Attention,再把整個Sequence資訊再處理一次
然后交替使用Self-Attention跟Fully-Connected

有關Self-Attention,最知名的相關的文章,就是《Attention is all you need》.那在這篇Paper裡面呢,Google提出了Transformer這樣的Network架構

Transformer我們今天還不會講到,但我們之后會講到,Transformer裡面一個最重要的Module就是Self-Attention,它就是變形金剛的火種源，那這篇Paper最厲害的地方,就是它有一個霸氣的名字Attention is all you need.

那其實像Self-Attention這樣的架構,最早我并不會說它是出現在《Attention is all you need》（把Self-Attention這個Module,把它發揚光大），因為其實很多更早的Paper,就有提出過類似的架構,只是不見得叫做Self-Attention,比如說叫做Self-Matching,或者是叫別的名字，

Self-Attention程序

那Self-Attention是怎麼運作的呢
Self-Attention的Input,它就是一串的Vector,那這個Vector可能是你整個Network的Input,它也可能是某個Hidden Layer的Output,所以我們這邊不是用 x x x來表示它,
在這里插入圖片描述
我們用 a a a來表示它，代表它有可能是前面已經做過一些處理,它是某個Hidden Layer的Output,那Input一排a這個向量以后,Self-Attention要Output另外一排b這個向量

那這每一個b都是考慮了所有的a以后才生成出來的,所以這邊刻意畫了非常非常多的箭頭,告訴你 b 1 b^1 b1考慮了 a 1 a^1 a1到 a 4 a^4 a4產生的， b 2 b^2 b2考慮 a 1 a^1 a1到 a 4 a^4 a4產生的， b 3 、 b 4 b^3 、b^4 b3、b4也是一樣,考慮整個input的sequence,才產生出來的，

1.怎么產生 b 1 b^1 b1這個向量

（剩下 b 1 b 2 b 3 b 4 b^1 b^2 b^3 b^4 b1b2b3b4剩下的向量同理）
這里有一個特別的機制，這個機制是根據 a 1 a^1 a1這個向量,找出整個很長的sequence裡面,到底哪些部分是重要的,哪些部分跟判斷 a 1 a^1 a1是哪一個label是有關係的,哪些部分是我們要決定 a 1 a^1 a1的class,決定 a 1 a^1 a1的regression數值的時候,所需要用到的資訊
在這里插入圖片描述
每一個向量跟 a 1 a^1 a1的關聯的程度,用一個數值叫α來表示

這個self-attention的module,怎麼自動決定兩個向量之間的關聯性呢,你給它兩個向量 a 1 a^1 a1跟 a 4 a^4 a4,它怎麼決定 a 1 a^1 a1跟 a 4 a^4 a4有多相關,然后給它一個數值α呢,那這邊呢你就需要一個計算attention的模組
在這里插入圖片描述
這個計算attention的模組,就是拿兩個向量作為輸入,然后它就直接輸出α那個數值,

2.計算α

計算這個α的數值有各種不同的做法

比較常見的做法呢,叫做用dot product,輸入的這兩個向量分別乘上兩個不同的矩陣,左邊這個向量乘上 W q W^q Wq這個矩陣得到矩陣 q q q,右邊這個向量乘上 W k W^k Wk這個矩陣得到矩陣 k k k，
再把 q q q跟 k k k做dot product,就是把他們做element-wise 的相乘,再全部加起來以后就得到一個 scalar,這個scalar就是α,這是一種計算α的方式
有另外一個叫做Additive的計算方式,它的計算方法就是,把同樣這兩個向量通過 W q W^q Wq W k W^k Wk,得到 q q q跟 k k k,那我們不是把它做Dot-Product,是把它這個串起來,然后丟到這個過一個Activation Function

然后再通過一個Transform,然后得到α，總之有非常多不同的方法,可以計算Attention,可以計算這個α的數值,可以計算這個關聯的程度，但是在接下來的討論裡面,我們都只用左邊這個方法,這也是今日最常用的方法,也是用在Transformer裡面的方法

要把這邊的 a 1 a^1 a1去跟這邊的 a 2 a 3 a 4 a^2 a^3 a^4 a2a3a4,分別都去計算他們之間的關聯性,也就是計算他們之間的α
在這里插入圖片描述
（1）你把 a 1 a^1 a1乘上 W q W^q Wq得到 q 1 q^1 q1,那這個q有一個名字,我們叫做Query,它就像是你搜尋引擎的時候,去搜尋相關文章的問題,就像搜尋相關文章的關鍵字,所以這邊叫做Query

（2） a 2 a 3 a 4 a^2 a^3 a^4 a2a3a4你都要去把它乘上 W k W^k Wk,得到 k k k這個Vector, k k k這個Vector叫做Key,那你把這個Query q1,跟這個Key k2,算Inner-Product就得到α

（3）我們這邊用 α 1 , 2 α_{1,2} α1,2?來代表說,Query是1提供的,Key是2提供的時候,這個1跟2他們之間的關聯性,這個α這個關聯性叫做Attention的Score,叫做Attention的分數,

接下來也要跟 a 3 a 4 a^3 a^4 a3a4來計算
在這里插入圖片描述
把 a 3 a_3 a3?乘上 W k W^k Wk,得到另外一個Key也就是 k 3 k^3 k3, a 4 a^4 a4乘上 W k W^k Wk得到 k 4 k^4 k4,然后你再把 k 3 k^3 k3這個Key,跟 q 1 q^1 q1這個Query做Inner-Product,得到1跟3之間的關聯性,得到1跟3的Attention,你把 k 4 k^4 k4跟 q 1 q^1 q1做Dot-Product,得到 α 1 , 4 α_{1,4} α1,4?,得到1跟4之間的關聯性

其實一般在實作時候, q 1 q^1 q1也會跟自己算關聯性,自己跟自己計算關聯性這件事情有多重要,你可以自己在做作業的時候試試看,看這件事情的影響大不大了

在這里插入圖片描述
計算出a1跟每一個向量的關聯性以后,接下來這邊會接入一個Soft-Max

這個Soft-Max跟分類的時候的那個Soft-Max是一模一樣的,所以Soft-Max的輸出就是一排α,所以本來有一排α,通過Soft-Max就得到 α ′ α' α′

這邊你不一定要用Soft-Max,用別的替代也沒問題,比如說有人嘗試過說做個ReLU,這邊通通做個ReLU,那結果發現還比Soft-Max好一點,所以這邊你不一定要用Soft-Max,這邊你要用什麼Activation Function都行,你高興就好,你可以試試看,那Soft-Max是最常見的,那你可以自己試試看,看能不能試出比Soft-Max更好的結果

3.求 b 1 b^1 b1

接下來得到這個 α ′ α' α′以后,我們就要根據這個 α ′ α' α′去抽取出這個Sequence裡面重要的資訊,根據這個α我們已經知道說,哪些向量跟 a 1 a^1 a1是最有關係的,怎麼抽取重要的資訊呢,

首先把 a 1 a^1 a1到 a 4 a^4 a4這邊每一個向量,乘上 W v W^v Wv得到新的向量,這邊分別就是用 v 1 v 2 v 3 v 4 v^1 v^2 v^3 v^4 v1v2v3v4來表示
接下來把這邊的 v 1 v^1 v1到 v 4 v^4 v4,每一個向量都去乘上Attention的分數,都去乘上 α ′ α' α′
然后再把它加起來,得到 b 1 b^1 b1
b 1 = ∑ i α 1 , i ′ v i b^1=\sum_i\alpha'_{1,i}v^i b1=i∑?α1,i′?vi

如果某一個向量它得到的分數越高,比如說如果 a 1 a^1 a1跟 a 2 a^2 a2的關聯性很強,這個 α ′ α' α′得到的值很大,那我們今天在做Weighted Sum以后,得到的 b 1 b^1 b1的值,就可能會比較接近 v 2 v^2 v2，所以誰的那個Attention的分數最大,誰的那個 v v v就會Dominant你抽出來的結果，以上就是怎麼從一整個Sequence 得到 b 1 b^1 b1，

Reference

（1）李宏毅深度學習2021課程
（2）Self-Attention機制全方位總結：https://zhuanlan.zhihu.com/p/79115586
（3）Self-attention + transformer 和其他一些總結：https://www.cnblogs.com/illlioo/p/14752174.html
（4）https://github.com/Kyubyong/transformer

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/293084.html

標籤：AI

上一篇：2021最全數學建模必備資料

下一篇：終于有人把計算機視覺講明白了。。。