主頁 >  其他 > 自然語言處理 Paddle NLP - 資訊抽取技術及應用

自然語言處理 Paddle NLP - 資訊抽取技術及應用

2023-06-20 10:12:30 其他

1.什么是資訊抽取

即自動從無結構或半結構的文本中抽取出結構化資訊的任務(病歷抽取)

2.物體抽取
3.關系抽取
4.事件抽取

資訊抽取和知識圖譜是一個上下游的關系,抽取的結果,可以組裝成知識圖譜(一種存盤知識的結構)

image
醫療、金融、法律,三大行業用得比較多
image
從問診中抽取資訊
image
貸款審核,大量的紙質、DPF檔案,需要將里面的資訊進行匹配審核
image

image

image
image

根據抽取結果在不在原文中對資訊抽取分類
這次我們只關注抽取式,不在原文中的情況需要參考生成方法

  • 抽取式:結果在原文中
  • 生成式:結果不在原文中,如果生成的結果需要一個知識做為輔助,就需要知識圖譜,很多時候不需要知識圖譜
    image

抽取式分類

  • 物體抽取
  • 關系抽取
  • 事件抽取
    image

資訊抽取的通用評測指標,所有的資訊抽取都可以用它評
Precision:抽取出來的結果,抽出來10個,5個對的,就是 50%
Recall:關注模型漏了哪些東西,指標0~1,數值越高,模型越好
F1:Precision和Recall的綜合平均,是兩個的綜合反映
image

抽取模型的關鍵要素:解碼設計
image

物體抽取

從一段文本中抽取出文本內容,并識別為預定義的類別
image

一般是 BIO 解碼方式 + CRF 模型結構
image

復雜的物體抽取,無法用 BIO 直接解決(用到關系抽取)
復雜物體抽取中的問題1:重疊嵌套
image
復雜物體抽取中的問題2:不連續
image

image

關系抽取

從文本中抽取出一對物體和預定義的關系型別,得到包含語意資訊的物體關系三元組關系是有方向的,抽取的兩個物體一般稱作頭物體(HeadEntity)和尾物體(TailEntity)
image

image
關系分類是關系抽取的第二步
image

解碼設計
訓練集需要人工標注或其它標注
簡單關系抽取
image
復雜關系抽取,將 CRF 升級成 Sigmoid,判斷大于 0.5 是一個類別,小于則不是
image
image

物體對組合
image
image

效果最好的模型,可以預測很多個類別
image
SPO 主謂賓
image
image

事件抽取

從一段文本中抽取出預定義的事件觸發詞和事件要素,組合為相應的結構化資訊除了事件,實際應用中資訊抽取的結果可能更加復雜,但都可以拆成關系抽取
image
image
image

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/555651.html

標籤:其他

上一篇:【技識訓累】自然語言處理中的基礎知識【二】

下一篇:返回列表

標籤雲
其他(161356) Python(38243) JavaScript(25508) Java(18250) C(15238) 區塊鏈(8271) C#(7972) AI(7469) 爪哇(7425) MySQL(7259) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5875) 数组(5741) R(5409) Linux(5347) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4606) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2436) ASP.NET(2404) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) .NET技术(1984) HtmlCss(1968) 功能(1967) Web開發(1951) C++(1942) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1881) .NETCore(1863) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 自然語言處理 Paddle NLP - 資訊抽取技術及應用

    1.什么是資訊抽取 > 即自動從無結構或半結構的文本中抽取出結構化資訊的任務(病歷抽取) 2.物體抽取 3.關系抽取 4.事件抽取 資訊抽取和知識圖譜是一個上下游的關系。抽取的結果,可以組裝成知識圖譜(一種存盤知識的結構) ![image](https://img2023.cnblogs.com/b ......

    uj5u.com 2023-06-20 10:12:30 more
  • 【技識訓累】自然語言處理中的基礎知識【二】

    博客推行版本更新,成果積累制度,已經寫過的博客還會再次更新,不斷地琢磨,高質量高數量都是要追求的,工匠精神是學習必不可少的精神。因此,大家有何建議歡迎在評論區踴躍發言,你們的支持是我最大的動力,你們敢投,我就敢肝 ......

    uj5u.com 2023-06-20 10:11:42 more
  • 自然語言處理 Paddle NLP - 資訊抽取技術及應用

    1.什么是資訊抽取 > 即自動從無結構或半結構的文本中抽取出結構化資訊的任務(病歷抽取) 2.物體抽取 3.關系抽取 4.事件抽取 資訊抽取和知識圖譜是一個上下游的關系。抽取的結果,可以組裝成知識圖譜(一種存盤知識的結構) ![image](https://img2023.cnblogs.com/b ......

    uj5u.com 2023-06-20 10:05:39 more
  • 編譯程式的任務

    編譯程式是一種翻譯程式,編譯程式是將一種語言形式翻譯成另一種語言形式。它將高級語言所寫的源程式翻譯成等價的機器語言或匯編語言的目標程式。

    整個編譯程序一般可以劃分為 5 個階段:詞法分析、語法分析、語意分析及中間代碼生成、中間代碼優化和目標代碼生成。 ......

    uj5u.com 2023-06-20 09:57:09 more
  • Gamma:強大的AI制作PPT神器,用完再也回不去了!

    看過許多 AI 制作 PPT 軟體,最侄訓是被 Gamma 驚艷到。 Gamma 是一款基于人工智能技術的 PPT 制作工具,可以幫助用戶輕松制作高質量的 PPT 演示文稿。 # 痛點解決 相比傳統制作 PPT 方式,Gamma 可以解決哪些如下 7 個痛點: ## 一句話生成 PPT 傳統制作 P ......

    uj5u.com 2023-06-20 09:14:11 more
  • 100個物聯網專案(基于ESP32)2快速入門

    ## 2快速入門 你將需要IDE來撰寫你的代碼。我們推薦初學者使用Arduino IDE。雖然它不是最好的IDE,但它可以完成作業,而且對初學者來說是直接和容易使用的。在熟悉了Arduino IDE并發展到更復雜的專案后,你可能會發現利用VS Code與Platformio插件來代替它更為方便。 # ......

    uj5u.com 2023-06-20 09:00:40 more
  • 好用網址分享-77ai導航與77搜索導航

    AI(人工智能)技術正在改變我們的生活方式和作業方式,越來越多的人開始關注和使用AI相關的網站和應用程式。在這篇文章中,我將為大家介紹一些常用的AI網址導航,幫助您更好地了解和使用AI技術。 **AI Hub** AI Hub是由Google Cloud推出的一個開放平臺,旨在幫助企業和開發者快速構 ......

    uj5u.com 2023-06-20 08:58:57 more
  • To ChatGPT:讓你更加隨意地使用所有ChatGPT應用

    現在其實已經有很多在線的llm服務了,當然也存在許多開源部署方案,但是不知道大家有沒有發現一個問題,目前基于ChatGPT開發的應用,都是使用的OpenAI的介面。換句話說,如果沒有OpenAI賬號,就沒有辦法使用這些應用。但是其實這些應用并不是強依賴于OpenAI的介面,其他的在線llm服務也是可 ......

    uj5u.com 2023-06-20 08:58:53 more
  • Liunx nginx服務

    目錄 一、nginx概念 二、nginx特點 三、nginx應用場景 四、nginx和apache 五、阻塞和非阻塞 六、同步和異步 七、編譯安裝nginx 八、升級nginx 九、總結 一、nginx概念 1.nginx概念 Nginx ("engine x") 是一個高性能的 HTTP 和反向代 ......

    uj5u.com 2023-06-20 08:58:26 more
  • 【解決方法】銳捷 EVE 模擬器關聯 Wireshark 進行抓包

    # 環境: >工具:銳捷 EVE 模擬器,VMware Workstation Pro 抓包工具:Wireshark 系統版本:Windows 10 # 問題描述: >描述:使用銳捷 EVE 模擬器抓包,點擊后無反應,網上的方法要么亂寫,亂抄,要么不夠仔細。故自己寫一遍。 >提示:若按照教程還是無法 ......

    uj5u.com 2023-06-20 08:57:47 more