主頁 >  其他 > [筆記] ELMO, BERT, GPT 簡單講解 - 李宏毅

[筆記] ELMO, BERT, GPT 簡單講解 - 李宏毅

2023-04-29 07:11:33 其他

國內視頻地址:https://www.bilibili.com/video/BV17441137fa/?spm_id_from=333.880.my_history.page.click&vd_source=bda72e785d42f592b8a2dc6c2aad2409

1 NLP 基礎

1.1 詞的表示程序演進:

  • one-hot 編碼
  • 詞袋模型
  • word embedding

1.2 multiple sense

1)明確兩個概念:token 和 type
  • type:形式
  • token:含義

例如 bank 有很多不同的(token)含義(銀行、河岸等),但它們都有著相同的(type)形式,

2)考慮到上面的問題,現在的 embedding 做法是為每個 token 提供一個 word embedding

然后具有相近語意的 token 也具有較為接近的 embedding 距離,

1.3 如何 embedding

1)基于 RNN 的 ELMO

最終我們取 hidden layer 層的向量做為 token 的 embedding,
或者更進一步,通過 weight 將所有的輸出進行加權求和:

2)基于 Bert

Bert 基于 Transformer,關于 transformer 可以參考:

  • https://zhuanlan.zhihu.com/p/526155983
  • https://zhuanlan.zhihu.com/p/526694027

bert 的原理可能無法一直記得很清楚,但我們只需要記得 bert 的作用,簡單來說可以理解為 transformer 中的 encoder,給定一個句子(或詞匯),輸出該句子(或詞匯)的 embedding 表示:

注意:這里圖片中中文的例子是用“詞”作為輸入,但是更推薦用中文的 “字”作為輸入,因為中文的“字”是有限的,而“詞”理論上是無窮的,這會導致編碼空間非常大,

2 BERT 介紹

2.1 背景

可以參考上面 1.3 節 2),

2.2 如何訓練 Bert

1)方法一:Masked Language Model(Masked LM)

采用對輸入進行 mask 讓其重建來訓

  • 將輸入的某個詞 mask 掉,然后取其輸出 embedding,丟入一個 multi-class classifier 中,要求其預測出現在被 mask 掉的那個詞匯是哪個詞匯
  • 由于 linear classifier 的分類能力較弱,所以 BERT 就需要輸出一個表征能力比較好的 embedding,這樣就巧妙的獲取了對特定詞的良好的 embedding
  • 另一個好處是相似的詞,在這種訓練框架下,也能獲得距離較近的 embedding 表征
2)方法二:Next sentence Prediction

采用預測兩個句子是否能連成一個句子

  • 在兩個句子間加一個特殊符號 [SEP] 標識告訴模型這是兩個句子
  • 在開頭加一個特殊符號 [CLS] 告訴模型接下來做的是分類任務,就是預測是否能組成一個句子
    這里注意:由于 BERT 的內部是 transformer 架構,使用 self-attention 機制使得任意兩個輸入向量之間的距離是一樣的,所以任務標識可以放在開頭,如果單向 RNN 結構,則需要放在末尾,
  • 同上一節一樣,linear classifier 的分類能力有限,這也會促使 BERT 去產生更好的 embedding
3)小結

通常情況下,上面這兩種方式在訓練 BERT 時是一起使用的,讓 BERT 同時去解這兩個任務時,它會學的更好,

2.3 How to use Bert

在 BERT 的論文中,作者其實時將 BERT model 模塊本身和下游任務一起訓練的(當然 bert 大部分情況下都是 fine-tune),為此舉了四個例子來展示如何實作訓練和使用

1)case 1:sentence classification

輸入:句子
輸出:預測類別

  • 下游任務是文本分類,由 Linear Classifier 模塊表示,這個部分是通過隨機初始化引數,從頭開始學的
  • 文本表征(embedding)模塊主要就是 BERT,這部分是 Fine-tune 形式參與訓練的
2)case 2:each word insentence classification

輸入:句子
輸出:句子中每個詞的預測類別

  • Linear Cls 是下游任務模塊,從頭訓
  • Bert 采用 fine-tune 方式
  • 訓練時需要給定當前句子 以及 當前句子中每個詞的類別
3)case 3:Nature Language Inference(推理)

輸入:兩個句子,一個作為前提(A),一個作為假設結論(B)
輸出:預測類別,即判斷以 A 作為前提的情況下,B 假設是否成立(T、F or unknown)

  • sentence 1 作為 premise,采用 [SEP] 與 sentence 2 作為 hypothesis 分隔開;
  • 第一個位置用于 CLS;
4)case 4:Extraction-base Question(抽取文章用于回答,QA)

先介紹這個 case 吧:

通常情況下,這類問題期望我們輸入一篇文章給 Model,然后根據我們的 question 由 model 抽取出答案,

注意:這里面有個限制就是 answer 是要在文章中出現過的,比如上圖第一個問題的回答 gravity 就在文章中出現過,

這個問題的結構化表示如上圖,定義文章 Document 由一系列 token 組成(\(\{d_1, d_2, ..., d_N\}\)),其中 \(d_i\)即表示第 i 個 token,同理問題 Query 也用此方式表示,

接下來,我們將 D 和 Q 作為輸入送入 Model,模型會輸出來兩個整數 s、e,分表代表回答內容在 Document 中的起始位置,例如上面第一個問題,答案 gravity 在 D 中的位置區間就是 17-17(第17個單詞到第17個單詞),

那么,BERT 中如何解這個問題呢?

  1. 首先,將 question 和 document 拼接作為 BERT 的輸入
  2. 接兩個網路層分別產出兩個向量(下圖中紅色、藍色),這兩個向量和 BERT 輸出的 embedding 向量具有相同的 size
  3. 先將紅色向量與 document 中每個輸出 token 進行點乘(dot product),結果過 softmax,得到每個 token 的概率表征,取其中最大的作為 s 輸出(例如圖1中第二個 token 的概率最大,所以 s=2)
  4. 再將藍色向量與 document 中每個輸出 token 進行點乘,過 softmax 后,取概率最大的位置作為 e 的輸出
  5. 最后的答案就由 s、e 來進行定位
  • s、e 任務的點乘向量與 token 的 Embedding 向量維度一致
  • 如果 s、e 不滿足正常情況(s<=e),此種情況作為“此題無解”輸出
  • Bert 采用 fine-tune,紅、藍向量從頭開始訓

2.4 for chinese:ERNIE

ERNIE 是為中文設計的 BERT,其采用的訓練方式有一點不一樣,因為 BERT 采用對單個 字 進行 mask,但這在中文中是很容易被猜出來的,所以其采用了 mask 詞 的方式進行訓練,

這里只是提一嘴,更具體的還是看論文吧:https://arxiv.org/abs/1904.09223

2.5 BERT 每層的側重

常用 Bert 為 24 層,nlp 任務其實是一個 pipiline 任務,從語言學的角度上來說,對一個句子的分析通常包含詞法分析、語法分析、語意分析等程序,這張圖就展示了在不同任務上,Bert 的不同層所占的權重大小(也即哪些層的輸出在這些特定任務上的表現更好):

這啟發我們,可以根據 nlp 任務的不同特性來選擇使用 bert 不同層抽象出來的 token embedding 進行使用,例如對于 POS 任務來說,第 11-13 層的權重較大,其 hidden embedding 效果較好,

3 GPT-2

Generative Pre-Training(GPT)本質上就是一個巨大無比的 language model,其底層采用的是 transformer 的 Decoder 模塊,

3.1 GPT 的訓練

  • 訓練模式和 bert 類似,輸入一個句子的開始標志 、當前詞匯,預測下一個詞匯
  • 每個詞匯過 self-attention,其 query 輸出和前面的詞的 key 輸出做權重計算,同時也和自己的 key 做權值計算,最后將所有計算結果做 sum,注意這里通常是過好幾層 self-attention 層,猜得到最終的輸出,最終的輸出其實是一個 embedding,

3.2 zero-shot

GPT 是非監督學習,采用 zero-shot 方式進行訓練,即使是在這種缺失監督資訊的情況下,仍然能奇跡般的泛化出對某些任務的解題能力,這是比較神奇的,

  • Reading Comprehension:只通過輸入文章表征、query 表征,然后接上 "A:" 提示標志,GPT 就會自動的給出該 query 的回答,上圖折線是不同引數(橫軸)下 GPT 的 F1(縱軸)指標效果;
  • Summarization:類似的,給出文章表征和特定 "TL;DR:" 提示標志,就會得到摘要;
  • Translation:給出前兩個如上圖所述的范式,再給出第三行范式,就會自動的得到對應的法語翻譯結果(但是這個任務的效果很差);

本文來自博客園,作者:sinatJ,轉載請注明原文鏈接:https://www.cnblogs.com/zishu/p/17363205.html

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/551467.html

標籤:其他

上一篇:閱讀文獻《DCRNet:Dilated Convolution based CSI Feedback Compression for Massive MIMO Systems》

下一篇:返回列表

標籤雲
其他(158294) Python(38108) JavaScript(25398) Java(18011) C(15221) 區塊鏈(8260) C#(7972) AI(7469) 爪哇(7425) MySQL(7152) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5870) 数组(5741) R(5409) Linux(5334) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4565) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2432) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1964) Web開發(1951) HtmlCss(1928) python-3.x(1918) 弹簧靴(1913) C++(1912) xml(1889) PostgreSQL(1874) .NETCore(1857) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • [筆記] ELMO, BERT, GPT 簡單講解 - 李宏毅

    國內視頻地址:https://www.bilibili.com/video/BV17441137fa/?spm_id_from=333.880.my_history.page.click&vd_source=bda72e785d42f592b8a2dc6c2aad2409 1 NLP 基礎 1.1 ......

    uj5u.com 2023-04-29 07:11:33 more
  • 閱讀文獻《DCRNet:Dilated Convolution based CSI Feedback Compr

    這篇文章的作者是廣州大學的范立生老師和他的學生湯舜璞,于2022年10月發表在 IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY。 文獻提出了一種基于**空洞卷積(Dilated Convolution)**的CSI反饋網路,即空洞信道重建網路(Dilated Ch ......

    uj5u.com 2023-04-29 07:11:07 more
  • KubeSphere 社區雙周報 | 杭州站 Meetup 議題征集中 | 2023.04.1

    KubeSphere 社區雙周報主要整理展示新增的貢獻者名單和證書、新增的講師證書以及兩周內提交過 commit 的貢獻者,并對近期重要的 PR 進行決議,同時還包含了線上/線下活動和布道推廣等一系列社區動態。 本次雙周報涵蓋時間為:2023.04.14-2023.04.27。 貢獻者名單 新晉 K ......

    uj5u.com 2023-04-29 07:10:36 more
  • 全球首個開發者村啟動開村,產業聚力松山湖,共創大灣區創新高地

    摘要:由東莞松山湖管委會、東莞市工業和資訊化局與華為云共同主辦的松山湖開發者生態創新峰會暨華為開發者大賽中國區啟動儀式舉行。 打造一流創新生態,與全球開發者共贏。4月26日,由東莞松山湖管委會、東莞市工業和資訊化局與華為云共同主辦的松山湖開發者生態創新峰會暨華為開發者大賽中國區啟動儀式舉行,全國開發 ......

    uj5u.com 2023-04-29 07:05:06 more
  • 題目 3158: 藍橋杯2023年第十四屆省賽真題-三國游戲(貪心)

    題目描述 小藍正在玩一款游戲。游戲中魏蜀吳三個國家各自擁有一定數量的士兵X, Y, Z (一開始可以認為都為 0 )。游戲有 n 個可能會發生的事件,每個事件之間相互獨立且最多只會發生一次,當第 i 個事件發生時會分別讓 X, Y, Z 增加Ai , Bi ,Ci 。 當游戲結束時 (所有事件的發生 ......

    uj5u.com 2023-04-29 07:03:55 more
  • 2023面試自動化測驗面試題【含答案】,建議收藏

    1、你做了幾年的測驗、自動化測驗,說一下 selenium 的原理是什么?
    我做了五年的測驗,1年的自動化測驗;
    selenium 它是用 http 協議來連接 webdriver ,客戶端可以使用 Java 或者 Python 各種編程語言來實作;
    2、什么專案適合做自動化測驗? ......

    uj5u.com 2023-04-28 16:50:53 more
  • 從不均勻性角度淺析AB實驗

    本篇的目的是從三個不均勻性的角度,對AB實驗進行一個認知的普及,最終著重講述AB實驗的一個普遍的問題,即實驗準確度問題。 ......

    uj5u.com 2023-04-28 16:47:49 more
  • [ML&DL] 分類問題

    分類問題 分類問題和回歸問題的區別是:分類問題的值域是離散的。 線性回歸不能應用于分類問題。 邏輯回歸模型 (此處為一元分類問題) 預測函式: $$ h_\theta(x)=g(\theta^Tx) $$ 其中: $$ g(z) = \frac{1}{1+e^{-z}} $$ 能夠使得: $$ 0\ ......

    uj5u.com 2023-04-28 16:46:51 more
  • ChatGPT在工業領域的研究與應用探索-資料與工況認知

    我們能夠得出來的結論:(1)ChatGPT能夠記憶資料資訊、關聯資料資訊與工況的關系、出現工況給出處理措施,本質資料資訊也是文字的一種形式;(2)ChatGPT能夠找出來降輸入認知資訊以外的非正常資料資訊;(3)在廣域網范圍內能夠給出來處理措施,這個處理措施是有誤的。 ......

    uj5u.com 2023-04-28 16:45:17 more
  • 產品質量管理利器,華為云發布CodeArts Defect缺陷管理服務

    摘要:近日,華為云CodeArts Defect缺陷管理服務正式上線,提供結構化缺陷跟蹤流程和標準化的質量度量模型。 本文分享自華為云社區《產品質量管理利器,華為云發布CodeArts Defect缺陷管理服務》,作者:華為云頭條 。 美國管理學家彼得曾經說過,“決定水桶盛水量多少的關鍵因素不是其最 ......

    uj5u.com 2023-04-28 16:32:13 more