1.什么是資訊抽取
即自動從無結構或半結構的文本中抽取出結構化資訊的任務(病歷抽取)
2.物體抽取
3.關系抽取
4.事件抽取
資訊抽取和知識圖譜是一個上下游的關系,抽取的結果,可以組裝成知識圖譜(一種存盤知識的結構)

醫療、金融、法律,三大行業用得比較多

從問診中抽取資訊

貸款審核,大量的紙質、DPF檔案,需要將里面的資訊進行匹配審核




根據抽取結果在不在原文中對資訊抽取分類
這次我們只關注抽取式,不在原文中的情況需要參考生成方法
- 抽取式:結果在原文中
- 生成式:結果不在原文中,如果生成的結果需要一個知識做為輔助,就需要知識圖譜,很多時候不需要知識圖譜

抽取式分類
- 物體抽取
- 關系抽取
- 事件抽取

資訊抽取的通用評測指標,所有的資訊抽取都可以用它評
Precision:抽取出來的結果,抽出來10個,5個對的,就是 50%
Recall:關注模型漏了哪些東西,指標0~1,數值越高,模型越好
F1:Precision和Recall的綜合平均,是兩個的綜合反映

抽取模型的關鍵要素:解碼設計

物體抽取
從一段文本中抽取出文本內容,并識別為預定義的類別

一般是 BIO 解碼方式 + CRF 模型結構

復雜的物體抽取,無法用 BIO 直接解決(用到關系抽取)
復雜物體抽取中的問題1:重疊嵌套

復雜物體抽取中的問題2:不連續


關系抽取
從文本中抽取出一對物體和預定義的關系型別,得到包含語意資訊的物體關系三元組關系是有方向的,抽取的兩個物體一般稱作頭物體(HeadEntity)和尾物體(TailEntity)


關系分類是關系抽取的第二步

解碼設計
訓練集需要人工標注或其它標注
簡單關系抽取

復雜關系抽取,將 CRF 升級成 Sigmoid,判斷大于 0.5 是一個類別,小于則不是


物體對組合


效果最好的模型,可以預測很多個類別

SPO 主謂賓


事件抽取
從一段文本中抽取出預定義的事件觸發詞和事件要素,組合為相應的結構化資訊除了事件,實際應用中資訊抽取的結果可能更加復雜,但都可以拆成關系抽取



轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/555649.html
標籤:其他
上一篇:編譯程式的任務
下一篇:返回列表
