主頁 >  其他 > 自然語言處理 Paddle NLP - 預訓練語言模型及應用

自然語言處理 Paddle NLP - 預訓練語言模型及應用

2023-06-14 09:08:51 其他

什么是語言理解?

關于疫情的一段對話:

  • 中國:我們這邊快完了

  • 歐洲:我們這邊快完了

  • 中國:我們好多了

  • 歐洲:我們好多了

挑戰:

  • 語言的復雜性和多樣性
  1. 多義/同義/歧義現象
  2. 靈活多變的表達形式
  • 語言背后的環境知識
  1. 以前沒錢買華為,現在沒錢買華為

語言理解的四個粒度:

  • 字的理解 例如:藏
  • 詞的理解 例如:蘋果
  • 句子的理解 例如:我們這邊快完了
  • 篇章的理解 例如:貿易制裁似乎成了美國政府在對華關系中慣用的大棒,然而,這大棒果真如美國政府所希望的那樣靈驗嗎?

好的表示是實作語言理解的基礎:一個好的表示,是要具備通用涵義,并且與具體任務無關,是時又能根據具體任務,提供有用資訊
理解是針對任務的理解:字詞,關注區域資訊;句子篇章,關注文本的全域資訊
image

CBOW:基于臨近詞(背景關系)預測詞
Skip-Ngram:基于詞預測臨近詞(背景關系)
image
image
image
image
image
image
image
image

基于預訓練的語意理解技術

ELMo:第一個現代的語意理解模型
image

利用兩個LSTM,分別從左到右,從右到左的語言模型建模,實作建模背景關系資訊的目的,
兩層LSTM:從低層到高層,逐個獲取不同層次的語言資訊,從最低層單詞特征,到最高層語文特征
image

在獲取了預訓練模型特征以后,如何應用到具體的任務中,
ELMo:采用了 Feature-Based 方式進行應用
加權相加引數 \(a_1、a_2、a_3\) 是可學習的,這是實作動態 Word Embedding 關鍵所在
image

ELMo 不僅解決了多義詞的問題,而且可以將詞性對應起來
image

ELMo:有什么缺點?

  • 問題1:不完全雙向預訓練
    模型的前向和后向LSTM兩個模型是分別訓練的,僅在Loss Function階段進行了結合,

  • 問題2:需進行任務相關網路結構設計(GPT可解決網格設計問題)
    每種型別的下游任務都需要進行特定的網路結構設計和搭建

  • 問題3:僅有詞向量,無句向量
    ELMo在預訓練階段僅學習了語言模型,無句向量學習任務

GPT:被BERT光芒掩蓋的作業

對BERT的誕生,起到了非常明顯的推動作用
image

image
Pre-training 作為 下游任務的一部分參與任務學習,大量減少下游任務網路中新增引數的數量,同時,下游任務的網路,相比較預訓練網路,也只有少量結構上的變動,這樣會節省大量時間
image

對于分類任務:模型只需要在輸入文本上加上起始(Start)和終結(Extract)的符號,并在網路后端新增一個分類器(FC),
對于句子判斷:如語言識別,兩個句子中增加分隔符就可以了,
對于文本相似度判斷、多項選擇:只需要少量改動,就能實作 Fine-Tuning 程序
image

GPT
優點:帶來了明顯的效果提升,也極大的簡化了任務網路相關的結構
缺點:

  • 單向預訓練
    預訓練階段僅采用傳統單向語言模型作為訓練目標
  • 僅有詞向量,無句向量
    GPT在預訓練階段僅學習了語言模型,無句向量學習任務
    image

BERT:預訓練領域的里程碑式突破

Pre-training階段

  • 延用了GPT 網路結構,使用了12層 Transformer Encoder
  • 互動式式雙向語言模型建模(LM -> Auto-Encoder)
  • 引入sentence-level預訓練任務
  • 更大規模預訓練資料:BooksCorpus + Wikipedia(+2.5billion)

Pre-training 目標:
同時訓練token-level & sentence-leveltask

  • Mask-LM task(Mask token)
    15% mask概率,在pre-training階段實作互動式雙向
  • Next-sentence句對預測任務
    預測當前句的下一句話
    image

BERT:Pre-training 策略分析
BERT Mast-LM ,Mask 力度是 Token(單個字)
image

image

BERT 如何將自己的預訓練模型,應用到下游任務?使用了簡單粗暴的方式:偽結果論
image

image

BERT缺點
BERTmask(sub-word)lm任務存在的問題:

  • Word哈爾濱;sub-word哈##爾##濱
  • Sub-word預測可以通過word的區域資訊完成
  • 模型缺乏全域建模資訊的“動力”
    難以學到詞、短語、物體的完整語意
    image

ERNIE:基于知識增強的語意理解模型(百度)

將token 力度擴展到了 word 或 entity,使用了百度自建的語意庫
image
image

ERNIE 在 Fine-tuning 使用了和 BERT 完全一致的方式
image
image
image

2.0 在預訓練階段,引入了更多的預訓練任務
image

如何在學習新知識的同時,不忘舊知識
在預訓練階段,不斷進行任務的疊加訓練
image
image
image
image
image

image

預訓練模型在NLP經典任務的應用

NLP部分經典任務總覽
image

預訓練語言模型在下游任務的優勢

  • 更少的標注資料
  • 更高的任務效果
  • 更簡單的網路結構適配

image

image
image
image
image
image
image

預訓練模型,不是越大越好
預訓練模型,如何達到收斂的狀態?一直是一個難以界定的范圍,越訓越大,很難做到預訓練充分的結果,目前常規采取的方式是,讓它一直訓著,抽取實時對預訓練模型中產生的中間模型,進行一個具體任務驗證,隨時采取一個文本匹配任務進行 Fine-Tuning 驗證,如果預訓練后期,發現了在很長一段時間內,在這樣一個驗證的下游任務上,得到的 Fine-Tuning 結果,基本持平,我們就認為這個模型達到了一個收斂的狀態,或者說區域收斂的狀態,這時候就可以給它停下來了,沒有一個特別規范的指標

原文:https://aistudio.baidu.com/aistudio/course/introduce/24177?sharedLesson=1455657&sharedType=2&sharedUserId=2631487&ts=1685934903156

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/555090.html

標籤:其他

上一篇:刻苦學習aws資料總結

下一篇:返回列表

標籤雲
其他(160923) Python(38226) JavaScript(25493) Java(18235) C(15237) 區塊鏈(8270) C#(7972) AI(7469) 爪哇(7425) MySQL(7248) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5875) 数组(5741) R(5409) Linux(5347) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4591) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2435) ASP.NET(2404) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) .NET技术(1984) 功能(1967) HtmlCss(1964) Web開發(1951) C++(1939) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1881) .NETCore(1863) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 自然語言處理 Paddle NLP - 預訓練語言模型及應用

    ### 什么是語言理解? 關于疫情的一段對話: - 中國:我們這邊快完了 - 歐洲:我們這邊快完了 - 中國:我們好多了 - 歐洲:我們好多了 挑戰: - 語言的復雜性和多樣性 1. 多義/同義/歧義現象 2. 靈活多變的表達形式 - 語言背后的環境知識 1. 以前沒錢買華為,現在沒錢買華為 語言理 ......

    uj5u.com 2023-06-14 09:08:51 more
  • 刻苦學習aws資料總結

    刻苦學習aws資料總結 以下學習資料僅供參考(企業應用程式上云部署) 搭建步驟 刻苦學習aws資料總結 以下學習資料僅供參考(企業應用程式上云部署) 搭建步驟 刻苦學習aws資料總結 以下學習資料僅供參考(企業應用程式上云部署) 搭建步驟 刻苦學習aws資料總結 以下學習資料僅供參考(企業應用程式上 ......

    uj5u.com 2023-06-14 09:07:16 more
  • NVIDIA Maxine Video Effects SDK 編程指南 - 實踐小記

    NVIDIA Maxine Video Effects SDK 編程指南 NVIDIA Maxine Video Effects支持基于 AI 的視覺效果,這些效果可以輸入標準網路攝像頭畫面資料,同時也可以傳入一張圖或者來自ffmpeg解碼器的幀資料,讓使用者可以輕松集成到視頻會議和視頻特效內容創建... ......

    uj5u.com 2023-06-14 09:00:36 more
  • 業務程式員不建議造輪子

    不要問我是.net程式員還是java程式員,我是業務程式員。 作業多年,我覺得業務程式員,不應該造輪子。 多年以前,我就吃過造輪子的虧,有時,我作業大概60%的時間在造輪子、改輪子的BUG,40%的時間在寫業務功能。 為什么要造輪子呢,為了學技術,為了不認輸。但是造輪子的代價很大,也影響作業,寫著業 ......

    uj5u.com 2023-06-14 08:59:43 more
  • 架構師日記-從技術角度揭露電商大促備戰的奧秘

    今年的618大促已經如期而至,接下來我會從技術的角度,跟大家聊聊大促備戰的底層邏輯和實戰方案,希望能夠解答大家心中的一些疑惑。 ......

    uj5u.com 2023-06-14 08:51:53 more
  • Junit執行器Runner探索之旅

    單元測驗是每個程式員必備的技能,而Runner是每個單元測驗類必有屬性。本文通過解讀Junit原始碼,介紹junit中每個執行器的使用方法,讓讀者在單元測驗時,可以靈活的使用Runner執行器。 ......

    uj5u.com 2023-06-14 08:46:36 more
  • DCOM遠程執行命令橫向移動

    # DCOM遠程執行命令橫向移動 [TOC] ## 一、DCOM介紹 DCOM(分布式組件物件模型)是微軟的一系列概念和程式介面。它支持不同的兩臺機器上的組件間的通信,不論它們是運行在局域網、廣域網、還是Internet上。利用這個介面,客戶端程式物件能夠向網路中另一臺計算機上的服務器程式物件發送請 ......

    uj5u.com 2023-06-14 08:46:22 more
  • Apache Http Server 路徑穿越漏洞復現(CVE-2021-41773)

    # Apache Http Server 路徑穿越漏洞復現 ## Apache Http Server 路徑穿越漏洞概述 ### Apache Http Server 簡介 Apache HTTP Server(簡稱 Apache)是 Apache 軟體基金會的一個開放原始碼的網頁服務器軟體,可以在大 ......

    uj5u.com 2023-06-14 08:46:07 more
  • XSS cookie偽造攻擊

    環境 系統:windows 7 靶場:DVWA 場景:chrome對firefox的個人cookie盜用偽造 IP:192.168.98.128 埠:未占用的任意埠 [1024-49151] 實施 1.首先確保firefox登錄狀態,即存在cookie 2.構造獲取cookie的js請求腳本 < ......

    uj5u.com 2023-06-14 08:45:48 more
  • 【解決方法】銳捷EVE模擬器中VPC無法通過DHCP獲取IP地址,改用介面

    # 環境: >工具:銳捷EVE模擬器,VMware Workstation Pro 遠程工具:SecureCRT 系統版本:Windows 10 # 問題描述: >描述:一個簡單的DHCP環境,使用VPC充當PC客戶機,IP地址獲取為DHCP方式。但在發送request資料包后,服務器服務器已經把地 ......

    uj5u.com 2023-06-14 08:40:24 more