主頁 >  其他 > HanLP《自然語言處理入門》筆記--6.條件隨機場與序列標注

HanLP《自然語言處理入門》筆記--6.條件隨機場與序列標注

2020-09-15 20:04:58 其他

筆記轉載于GitHub專案:https://github.com/NLP-LOVE/Introduction-NLP

6. 條件隨機場與序列標注

本章介紹一種新的序列標注模型條件隨機場,這種模型與感知機同屬結構化學習大家族,但性能比感知機還要強大,為了厘清該模型的來龍去脈,我們先對機器學習模型做番柿理,然后結合代碼介紹條件隨機場理論,探究它與結構化感知機的異同,

6.1 機器學習的模型譜系

機器學習的模型譜系圖如下圖所示:

根據建模的究竟是聯合概率分布 P(x,y) 還是條件概率分布 P(y|x),派生出生成式模型與判別式模型,

  1. 生成式模型

    生成式模型:模擬資料的生成程序,兩類隨機變數存在因果先后關系,先有因素 y,后有結果 x,這種因果關系由聯合分布模擬:

    \[P(x,y)=P(y)P(x|y) \]

    通過聯合分布 P(x,y),生成式模型其實間接建模了 P(x):

    \[P(x)=\sum_{y\in{Y}}P(x,y) \]

    這里有兩個缺陷:

    • P(x) 很難準確估計,因為特征之間并非相互獨立,而是存在錯綜復雜的依賴關系,
    • P(x) 在分類中也沒有直接作用,

    為了克服這兩個問題,判別式模型出現,

  2. 判別式模型

    判別式模型直接跳過了 P(x),直接對條件概率 P(y|x) 建模,不管 x 內部存在多復雜的關系,也不影響判別式模型對 y 的判斷,于是就能夠放心大膽的利用各種各樣豐富的、有關聯的特征, 所以我們會看到感知機分詞的準確率高于隱馬爾可夫模型,

    \[P(y|x)=\frac{exp(score(x,y))}{\sum_{x,y}exp(score(x,y))} \]

    其中,exp 為指數函式,隨機變數關系錯綜復雜,為了分析這些關系,使用概率圖模型,

  3. 有向概率圖模型

    概率圖模型( Probabilistic Graphical Model, PGM)是用來表示與推斷多維隨機變數聯合分布 p(x,y) 的強大框架,被廣泛用于計算機視覺、知識表達、貝葉斯統計與自然語言處理,它利用節點 V 來表示隨機變數,用邊 E 連接有關聯的隨機變數,將多維隨機變數分布表示為圖 G=(V,E),這樣就帶來了一個好處,那就是整個圖可以分解為子圖再進行分析.子圖中的隨機變數更少,建模更加簡單,具體如何分解,據此派生出有向圖模型和無向圖模型,

    有向圖模型按事件的先后因果順序將節點連接為有向圖,如果事件 A 導致事件 B,則用箭頭連接兩個事件 A-->B,

    有向圖模型都將概率有向圖分解為一系列條件概率之積,有向圖模型經常用生成式模型來實作,定義 π(v) 表示節點 v 的所有前驅節點,則分布為:

    \[p(\boldsymbol{x}, \boldsymbol{y})=\prod_{v=V} p(v | \boldsymbol{\pi}(v)) \]

  4. 無向概率圖模型

    相反,無向圖模型則不探究每個事件的因果關系,也就是說不涉及條件概率分解,無向圖模型的邊沒有方向,僅僅代表兩個事件有關聯,

    無向圖模型將概率分解為所有最大團上的某種函式之積,

    在圖論中,最大團指的是滿足所有節點相互連接的最大子圖,因為最大團需要考慮所有變數,為此,無向圖模型定義了一些虛擬的因子節點,每個因子節點只連接部分節點,組成更小的最大團,

    藍色虛線表示最大團,黑色方塊表因子節點,圓圈則表示變數節點,無向圖模型將多維隨機變數的聯合分布分解為一系列最大團中的因子之積:

    \[p(x, y)=\frac{1}{Z} \prod_{a} \Psi_{a}\left(x_{a}, y_{a}\right) \]

    其中,a 是因子節點,Ψa 則是一個因子節點對應的函式,引數 Xa,Ya 是與因子節點相連的所有變數節點,為了將式子約束為概率分布,定義常數 Z 為如下歸一化因子:

    \[Z=\sum_{x, y} \prod_{a} \Psi_{a}\left(x_{a}, y_{a}\right) \]

    在機器學習中,常用指數家族的因子函式:

    \[\Psi_{a}\left(x_{a}, y_{a}\right)=\exp \left\{\sum_{k} w_{a k} f_{a k}\left(x_{a}, y_{a}\right)\right\} \]

    其中,k 為特征的編號,Fak 是特征函式,Wak 為相應的特征權重,

    判別式模型經常用無向圖來表示,只需要在歸一化時,對每種 x 都求一個歸一化因子:

    \[Z(\boldsymbol{x})=\sum_{y} \prod_{a} \Psi_{a}\left(\boldsymbol{x}_{a}, \boldsymbol{y}_{a}\right) \]

    然后 P(x,y) 就轉化為判別式模型所需的條件概率分布:

    \[p(\boldsymbol{y} | \boldsymbol{x})=\frac{1}{Z(\boldsymbol{x})} \prod_{a} \boldsymbol{\Psi}_{a}\left(\boldsymbol{x}_{a}, \boldsymbol{y}_{a}\right) \]

    到這里,最后一個公式就是條件隨機場的一般形式,

6.2 條件隨機場

條件隨機場( Conditional Random Field, CRF)是一種給定輸入隨機變數 x,求解條件概率 p(y| x) 的概率無向圖模型,用于序列標注時,特例化為線性鏈( linear chain )條件隨機場,此時,輸人輸出隨機變數為等長的兩個序列,

  1. 線性鏈條件隨機場

    線性鏈條件隨機場如下圖所示:

    每個 Xt 上方有 3 個灰色節點,代表 Xt 的 3 個特征,當然還可以是任意數量的特征,體現了特征的豐富性,黑色方塊是因子節點,可以理解為一個特征函式 \(f_k(y_{t-1},y_t,x_t)\),其中僅僅利用了 Xt 和 Yt 的特征稱作狀態特征,利用了 Yt-1 的特征則稱作轉移特征,與感知機的特征函式相同,

    線性鏈條件隨機場的定義如下:

    \[p(\boldsymbol{y} | \boldsymbol{x})=\frac{1}{Z(\boldsymbol{x})} \prod_{t=1}^{T} \exp \left\{\sum_{k=1}^{K} \boldsymbol{w}_{k} f_{k}\left(y_{t-1}, y_{t}, \boldsymbol{x}_{t}\right)\right\} \]

    其中,Z(x)為歸一化函式:

    \[Z(\boldsymbol{x})=\sum_{y} \prod_{t=1}^{T} \exp \left\{\sum_{k=1}^{K} w_{k} f_{k}\left(y_{t-1}, y_{t}, \boldsymbol{x}_{t}\right)\right\} \]

    上式定義在所有可能的標注序列上,如果將所有特征函式與權重分別寫作向量形式,則線性鏈條件隨機場的定義可簡化為:

    \[\begin{aligned} p(\boldsymbol{y} | \boldsymbol{x}) &=\frac{1}{Z(\boldsymbol{x})} \prod_{t=1}^{T} \exp \left\{\boldsymbol{w} \cdot \phi\left(y_{t-1}, y_{t}, \boldsymbol{x}_{t}\right)\right\} \\ &=\frac{1}{Z(\boldsymbol{x})} \exp \left\{\sum_{t=1}^{T} \boldsymbol{w} \cdot \phi\left(y_{t-1}, y_{t}, \boldsymbol{x}_{t}\right)\right\} \end{aligned} \]

    對比結構化感知機的打分函式:

    \[\operatorname{score}(x, y)=\sum_{t=1}^{T} w \cdot \phi\left(y_{t-1}, y_{t}, x_{t}\right) \]

    可以發現結構化感知機打分函式與條件隨機場的指數部分完全相同,由于給定實體 x,Z(x) 就是一個常數 c,所以有:

    \[p(y | x)=\frac{1}{c} \exp \{\operatorname{score}(x, y)\} \]

    于是,條件隨機場就和結構化感知機有以下聯系:

    • 條件隨機場和結構化感知機的特征函式完全一致,
    • 結構化感知機預測打分越高,條件隨機場給予該預測的概率也越大,

    這種相似性使得我們能夠復用結構化感知機的預測演算法,也就是維特比演算法,

    條件隨機場的訓練程序詳見《自然語言處理入門》第6章,

  2. 對比結構化感知機

    結構化感知機和條件隨機場的相同點:

    • 特征函式相同
    • 權重向量相同
    • 打分函式相同
    • 預測演算法相同
    • 同屬結構化學習

    不同點

    • 感知機更新引數時,只使用一個訓練實體,沒有考慮整個資料集,難免顧此失彼;而條件隨機場對數似然函式及其梯度則使用了整個資料集,

    • 條件隨機場更新引數更加合理,條件隨機場更新引數如下:

      \[w \leftarrow w+\phi\left(x^{(i)}, y^{(i)}\right)-E_{w}\left[\phi\left(x^{(i)}, y\right)\right] \]

      對比感知機的更新引數運算式:

      \[w \leftarrow w+\phi\left(x^{(i)}, y^{(i)}\right)-\phi\left(x^{(i)}, \hat{y}\right) \]

      兩者的差距一目了然,感知機獎勵正確答案對應的特征函式 ?,但僅懲罰錯誤最厲害的那個 y,而條件隨機場同時懲罰所有答案 y,分攤懲罰總量,

6.3 條件隨機場工具包

談到條件隨機場工具包,最著名的就是 CRF++,有各大平臺的安裝方法,HanLP已經集成了,

  1. CRF++ 語料格式

    CRF++ 接受純文本語料,約定為一種空格或制表符分隔的表格格式,每個序列作為一個表格,每行為序列的一個時刻 Xt,Yt,除了最后一列為輸出變數 y 之外,其它列都是輸入變數 x,如下所示:

    商 s 中 B
    品 p 中 E
    和 h 中 S
    服 f 中 B
    務 w 中 E
    
    A a 英 B
    K k 英 M
    B b 英 M
    4 s 數 M
    8 b 數 E
    

6.4 HanLP中的CRF++ API

詳細代碼請見: evaluate_crf_cws.py

https://github.com/NLP-LOVE/Introduction-NLP/tree/master/code/ch06/evaluate_crf_cws.py

訓練耗時很長,

標準化評測

演算法 P R F1 R(oov) R(IV)
最長匹配 89.41 94.64 91.95 2.58 97.14
二元語法 92.38 96.70 94.49 2.58 99.26
一階HHM 78.49 80.38 79.42 41.11 81.44
二階HHM 78.34 80.01 79.16 42.06 81.04
平均感知機 96.69 96.45 96.57 70.34 97.16
結構化感知機 96.67 96.64 96.65 70.52 97.35
條件隨機場 96.86 96.64 96.75 71.54 97.33

條件隨機場的各項指標全面勝過了結構化感知機,綜合 F1 更達到 96.8%, 是傳統方法中最準確的分詞模型,

6.5 GitHub

HanLP何晗--《自然語言處理入門》筆記:

https://github.com/NLP-LOVE/Introduction-NLP

專案持續更新中......

目錄


章節
第 1 章:新手上路
第 2 章:詞典分詞
第 3 章:二元語法與中文分詞
第 4 章:隱馬爾可夫模型與序列標注
第 5 章:感知機分類與序列標注
第 6 章:條件隨機場與序列標注
第 7 章:詞性標注
第 8 章:命名物體識別
第 9 章:資訊抽取
第 10 章:文本聚類
第 11 章:文本分類
第 12 章:依存句法分析
第 13 章:深度學習與自然語言處理

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/49857.html

標籤:其他

上一篇:大佬快進來

下一篇:django 自帶權限 增加選單路由

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 2023年最新微信小程式抓包教程

    01 開門見山 隔一個月發一篇文章,不過分。 首先回顧一下《微信系結手機號資料庫被脫庫事件》,我也是第一時間得知了這個訊息,然后跟蹤了整件事情的經過。下面是這起事件的相關截圖以及近日流出的一萬條資料樣本: 個人認為這件事也沒什么,還不如關注一下之前45億快遞資料查詢渠道疑似在近日復活的訊息。 訊息是 ......

    uj5u.com 2023-04-20 08:48:24 more
  • web3 產品介紹:metamask 錢包 使用最多的瀏覽器插件錢包

    Metamask錢包是一種基于區塊鏈技術的數字貨幣錢包,它允許用戶在安全、便捷的環境下管理自己的加密資產。Metamask錢包是以太坊生態系統中最流行的錢包之一,它具有易于使用、安全性高和功能強大等優點。 本文將詳細介紹Metamask錢包的功能和使用方法。 一、 Metamask錢包的功能 數字資 ......

    uj5u.com 2023-04-20 08:47:46 more
  • vulnhub_Earth

    前言 靶機地址->>>vulnhub_Earth 攻擊機ip:192.168.20.121 靶機ip:192.168.20.122 參考文章 https://www.cnblogs.com/Jing-X/archive/2022/04/03/16097695.html https://www.cnb ......

    uj5u.com 2023-04-20 07:46:20 more
  • 從4k到42k,軟體測驗工程師的漲薪史,給我看哭了

    清明節一過,盲猜大家已經無心上班,在數著日子準備過五一,但一想到銀行卡里的余額……瞬間心情就不美麗了。最近,2023年高校畢業生就業調查顯示,本科畢業月平均起薪為5825元。調查一出,便有很多同學表示自己又被平均了。看著這一資料,不免讓人想到前不久中國青年報的一項調查:近六成大學生認為畢業10年內會 ......

    uj5u.com 2023-04-20 07:44:00 more
  • 最新版本 Stable Diffusion 開源 AI 繪畫工具之中文自動提詞篇

    🎈 標簽生成器 由于輸入正向提示詞 prompt 和反向提示詞 negative prompt 都是使用英文,所以對學習母語的我們非常不友好 使用網址:https://tinygeeker.github.io/p/ai-prompt-generator 這個網址是為了讓大家在使用 AI 繪畫的時候 ......

    uj5u.com 2023-04-20 07:43:36 more
  • 漫談前端自動化測驗演進之路及測驗工具分析

    隨著前端技術的不斷發展和應用程式的日益復雜,前端自動化測驗也在不斷演進。隨著 Web 應用程式變得越來越復雜,自動化測驗的需求也越來越高。如今,自動化測驗已經成為 Web 應用程式開發程序中不可或缺的一部分,它們可以幫助開發人員更快地發現和修復錯誤,提高應用程式的性能和可靠性。 ......

    uj5u.com 2023-04-20 07:43:16 more
  • CANN開發實踐:4個DVPP記憶體問題的典型案例解讀

    摘要:由于DVPP媒體資料處理功能對存放輸入、輸出資料的記憶體有更高的要求(例如,記憶體首地址128位元組對齊),因此需呼叫專用的記憶體申請介面,那么本期就分享幾個關于DVPP記憶體問題的典型案例,并給出原因分析及解決方法。 本文分享自華為云社區《FAQ_DVPP記憶體問題案例》,作者:昇騰CANN。 DVPP ......

    uj5u.com 2023-04-20 07:43:03 more
  • msf學習

    msf學習 以kali自帶的msf為例 一、msf核心模塊與功能 msf模塊都放在/usr/share/metasploit-framework/modules目錄下 1、auxiliary 輔助模塊,輔助滲透(埠掃描、登錄密碼爆破、漏洞驗證等) 2、encoders 編碼器模塊,主要包含各種編碼 ......

    uj5u.com 2023-04-20 07:42:59 more
  • Halcon軟體安裝與界面簡介

    1. 下載Halcon17版本到到本地 2. 雙擊安裝包后 3. 步驟如下 1.2 Halcon軟體安裝 界面分為四大塊 1. Halcon的五個助手 1) 影像采集助手:與相機連接,設定相機引數,采集影像 2) 標定助手:九點標定或是其它的標定,生成標定檔案及內參外參,可以將像素單位轉換為長度單位 ......

    uj5u.com 2023-04-20 07:42:17 more
  • 在MacOS下使用Unity3D開發游戲

    第一次發博客,先發一下我的游戲開發環境吧。 去年2月份買了一臺MacBookPro2021 M1pro(以下簡稱mbp),這一年來一直在用mbp開發游戲。我大致分享一下我的開發工具以及使用體驗。 1、Unity 官網鏈接: https://unity.cn/releases 我一般使用的Apple ......

    uj5u.com 2023-04-20 07:40:19 more