學習總結

（1）上半部分是詳解Seq2seq在各領域的應用效果挺好，如聊天機器人、QA問答系統、語法分析、目標檢測等，下半部分是初探transformer的Encoder模塊，其實就在原來的self-attention機制基礎上加上residual connecttion等步驟，
（2）batch normalization是對不同example，不同feature的同一個dimension，去計算mean跟standard deviation，
但layer normalization，它是對同一個feature，同一個example里面不同的dimension去計算mean跟standard deviation，

文章目錄

學習總結
一、詳解Seq2seq
- 0.舉栗子
- - 1）語音識別
  - 2）機器翻譯
  - 3）語音翻譯
- 1.硬train一發（閩南語、臺語）
- 2.Seq2seq for Chatbot聊天機器人
- 3.Question Answering (QA)
- 4.Seq2seq for Syntactic Parsing（語法分析）
- 5.multi-label classification
- 6.Seq2seq for Object Detection
二、初探Encoder-Decoder
- 1.Encoder
- 2.回到transformer的圖
三、更多參考
四、Reference

一、詳解Seq2seq

Transformer就是一個，Sequence-to-sequence的model，之前在講input a sequence的，case的時候，我們說input是一個sequence，那output有幾種可能：

一種是input跟output的長度一樣，這個是在作業二的時候做的
有一個case是output指,output一個東西，這個是在作業四的時候做的
那接來作業五的case是，我們不知道應該要output多長，由機器自己決定output的長度,即Seq2seq

0.舉栗子

1）語音識別

在這里插入圖片描述
輸入的聲音信號就是一串vector，輸出對應的文字，輸入和輸出的長度有一定關系，但是沒有絕對的關系，輸出的長度由機器聽這段聲音信號后自己決定輸出的語音識別結果（即機器自己決定），

2）機器翻譯

作業HW5的機器翻譯，讓機器讀一個語言的句子，輸出另一種語言的句子，也是又機器自己決定輸出的句子長度，

3）語音翻譯

之所以不認為語音翻譯就是直接將語音識別和機器翻譯結合起來，是因為世界上有很多語言沒有文字，也就不能先通過語音識別轉成對應語音的文字，我們想直接通過語音翻譯轉成其他能看懂的語言的文字，

1.硬train一發（閩南語、臺語）

這部分李宏毅老師主要是講了直接訓練一個模型，機器在聽了一千五百個小時的鄉土劇后（硬train一發），對它輸入一句臺語后，能輸出對應的一句中文文字，

2.Seq2seq for Chatbot聊天機器人

在這里插入圖片描述

因為聊天機器人也是對它說一句話，他回應你一句話，輸入輸出都是文字（文字就是一個vector sequence），所以完成可以用Seq2seq的model來做一個聊天機器人，
收集大量人的對話（如電視劇、電影臺詞等）進行訓練，

3.Question Answering (QA)

很多NLP的任務都可想為QA任務，即讓機器讀一段文字，然后你問機器一個問題，希望他能夠給你一個正確答案，
在這里插入圖片描述
很多NLP問題都能看做是QA問題，可以用Seq2seq模型解決，舉栗子：翻譯德文輸出德文；給機器一篇長文，讓他把文章的摘要輸出；對商品評價進行情感分析，把某篇提到商品的文章丟進model然后讓文章判斷評價是正面還是負面，

Seq2Seq model只要是輸入一段文字,輸出一段文字,只要是輸入一個Sequence,輸出一個Sequence就可以解,所以你可以把QA的問題,硬是用Seq2Seq model解,叫它讀一篇文章讀一個問題,然后就直接輸出答案,所以各式各樣NLP的任務,其實都有機會使用Seq2Seq model

但是特制化的模型對于具體的語音相關的任務更能得到好效果（具體的可以參看臺大NLP的課程：Source webpage: https://speech.ee.ntu.edu.tw/~hylee/dlhlp/2020-spring.html）：

舉例來說在做語音辨識，我們剛才講的是一個Seq2Seq model，輸入一段聲音訊號，直接輸出文字，今天Google的 pixel4,Google官方告訴你，Google pixel4也是用N to N的Neural network,pixel4裡面就是有一個Neural network，輸入聲音訊號，輸出就直接是文字，但他其實用的不是Seq2Seq model，他用的是一個叫做RNN transducer的 model，像這些模型他就是為了語音的某些特性所設計，

4.Seq2seq for Syntactic Parsing（語法分析）

在語音還有自然語言處理上的應用,其實有很多應用，你不覺得他是一個Seq2Seq model的問題,但你都可以硬用Seq2Seq model的問題硬解他

舉例來說文法剖析,給機器一段文字,比如Deep learning is very powerful
在這里插入圖片描述

機器要做的事情是產生一個文法的剖析樹 告訴我們deep加learning合起來是一個名詞片語，very加powerful合起來，是一個形容詞片語，形容詞片語加is以后會變成，一個動詞片語，動詞片語加名詞片語合起來是一個句子

那今天文法剖析要做的事情就是產生這樣子的一個Syntactic tree，所以在文法剖析的任務裡面，假設你想要deep learning解的話，輸入是一段文字，他是一個Sequence，但輸出看起來不像是一個Sequence，輸出是一個樹狀的結構，但事實上一個樹狀的結構,可以硬是把他看作是一個Sequence
在這里插入圖片描述
這個樹狀結構可以對應到一個，這樣子的Sequence，從這個Sequence里面你也可以看出

這個樹狀的結構有一個S，有一個左括號,有一個右括號
S裡面有一個noun phrase,有一個左括號跟右括號
NP裡面有一個左括號跟右括號,NP裡面有is
然后有這個形容詞片語,他有一個左括號右括號

這一個Sequence就代表了這一個tree 的structure，先把tree 的structure轉成一個Sequence以后，就可以用Seq2Seq model硬解他

train一個Seq2Seq model，讀這個句子，然后直接輸入這一串文字，再把這串文字轉成一個樹狀的結構，你就可以硬是用Seq2Seq model，來做文法剖析這件事，這是真的可以做得到的,

可以參考一篇paper：grammar as a Foreign Language
在這里插入圖片描述

比較老的paper（14年的），當時的seq2seq model還不流行，當時seq2seq主要用在翻譯上，作者把文法剖析當做是一個翻譯問題，即將文法當做另一種語言，直接套用當時人們認為只能用在翻譯上的seq2seq模型硬做，就得到了SOTA結果，

李宏毅老師當時在國際會議上遇到這個第一作者，作者說沒有什么tips，連Adam都沒有用，就直接gradient descent然后直接train seq2seq model第一次就成功了，但是要沖到SOTA還是要微調下引數，

5.multi-label classification

注意multi-class的classification,跟multi-label的classification不是一個意思，因為后者是說同一個東西，是可以屬于多個class的，如下圖所示的文章分類：
在這里插入圖片描述

可能這篇文章屬於class 1跟3,這篇文章屬於class 3 9 17等等,你可能會說,這種multi-label classification的問題,能不能直接把它當作一個multi-class classification的問題來解

舉例來說把這些文章丟到一個classifier裡面

本來classifier只會輸出一個答案，輸出分數最高的那個答案
我現在就輸出分數最高的前三名，看看能不能解，multi-label的classification的問題

但這種方法可能是行不通的——因為每一篇文章對應的class的數目根本不一樣；有些東西有些文章對應的class的數目，是兩個有的是一個有的是三個

所以如果你說我直接取一個threshold，我直接取分數最高的前三名，class file output分數最高的前三名，來當作我的輸出顯然不一定能夠得到好的結果那怎麼辦呢

這邊可以用seq2seq硬做，輸入一篇文章 輸出就是class 就結束了，機器自己決定它要輸出幾個class

我們說seq2seq model，就是由機器自己決定輸出幾個東西，輸出的output sequence的長度是多少，既然你沒有辦法決定class的數目,那就讓機器幫你決定每篇文章要屬于多少個class，

6.Seq2seq for Object Detection

在這里插入圖片描述

object detection就是給機器一張圖片,然后它把圖片裡面的物件框出來,把它框出說這個是斑馬，具體了解可以參考上圖中的paper，

二、初探Encoder-Decoder

在這里插入圖片描述
一般的seq2seq’s model分成2塊——Encoder和Decoder

你input一個sequence有Encoder，負責處理這個sequence，再把處理好的結果丟給Decoder，由Decoder決定，它要輸出什么樣的sequence，其實seq2seq起源很早（14年9月，如下圖），不過今天講到seq2seq大家都會第一時間想到transformer，
在這里插入圖片描述

1.Encoder

在這里插入圖片描述
Encoder要的事就是給一排向量，輸出另一排向量（這個程序其實CNN、RNN、self-attention也能做到，即輸入一排向量，output另一個同樣長度的向量），在transformer里的encoder用的就是self-attention，我們先看簡化圖，最后在和transformer原始論文的圖進行對比，
在這里插入圖片描述
現在的Encoder里分成很多block，每個block都是輸入一排向量輸出一排向量，注意這里每個block其實不是neural network的一層，是好幾個layer做的事情（如下圖所示）：

先做一個self-attention,input一排vector以后,做self-attention,考慮整個sequence的資訊，Output另外一排vector.
接下來這一排vector,會再丟到fully connected的feed forward network裡面,再output另外一排vector,這一排vector就是block的輸出

但其實在原來的transformer里面這個block做的事更加復雜，在之前講的self-attention中輸入一排vector輸出一排vector，這里的每個vector是考慮了所有的input后得到的結果，而在transformer里面加了了一個設計——不只是輸出這個vector，還要把這個vector加上它的input得到新的ouput（這樣的network架構叫做residual connecttion，在DL領域也是應用非常廣泛）
在這里插入圖片描述
把得到的residual結果做normalization（這邊用的不是batch normalization，而是用layer normalization），
計算出mean跟standard deviation以后，就可以做一個normalize，我們把input 這個vector里面每一個dimension減掉mean再除以standard deviation以后得到x’，就是layer normalization的輸出，
x i ′ = x i ? m σ x'_i=\frac{x_i-m}{\sigma} xi′?=σxi??m?
得到layer normalization的輸出以后,它的這個輸出才是FC network的輸入，
在這里插入圖片描述

注意：
batch normalization是對不同example，不同feature的同一個dimension，去計算mean跟standard deviation，
但layer normalization，它是對同一個feature，同一個example里面不同的dimension去計算mean跟standard deviation，

在這里插入圖片描述

而FC network這邊也有residual的架構，所以我們會把FC network的input跟它的output加起來做一下residual得到新的輸出，這個FC network做完residual以后，還不是結束你要把residual的結果再做一次layer normalization得到的輸出，才是residual network里面的一個block的輸出，

2.回到transformer的圖

在這里插入圖片描述

首先你有self-attention，其實在input的地方，還有加上positional encoding（如果你只光用self-attention,你沒有位置的資訊）
Multi-Head Attention,這個就是self-attention的block，用到多頭注意力機制
Add&norm,就是residual加layer normalization
接下來,要過feed forward network
fc的feed forward network以后再做一次Add&norm,再做一次residual加layer norm，才是一個block的輸出,
然后這個block會重復n次，這個復雜的block，其實在之后會講到的一個非常重要的模型BERT，它其實就是transformer的encoder

三、更多參考

（1）on layer normalization in the transformer architecture：https://arxiv.org/abs/2002.04745
layer normalization為什么是放在剛才說的地方呢，為什么是先做residual在做layer normalization，能不能把layer normalization放到每一個block的input，這篇paper就是把順序換了下（如下圖右邊所示），說明原始的transformer架構并不是一個最optimal的設計，也能有其他設計方式：
在這里插入圖片描述
（2）Power Norm：,Rethinking Batch Normalization In Transformers：https://arxiv.org/abs/2003.07845
為什么用layer norm而不是batch normalization，這篇paper提出一個power normalization可以比layer normalization的performance差不多甚至更好一點，
（3）transformer一步步構建的jupyter

四、Reference

李宏毅機器學習2021課程

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/294095.html

標籤：AI

上一篇：運維實操——日志分析系統ELK（上）之elasticsearch

下一篇：電商專案“商品分類瀏覽”如何測驗？附詳細思維導圖

【李宏毅深度學習CP12】Transformer（part1）

學習總結

文章目錄

一、詳解Seq2seq

0.舉栗子

1）語音識別

2）機器翻譯

3）語音翻譯

1.硬train一發（閩南語、臺語）

2.Seq2seq for Chatbot聊天機器人

3.Question Answering (QA)

4.Seq2seq for Syntactic Parsing（語法分析）

5.multi-label classification

6.Seq2seq for Object Detection

二、初探Encoder-Decoder

1.Encoder

2.回到transformer的圖

三、更多參考

四、Reference