常用的表格檢測識別方法
3.3 表格內容識別方法
表格識別的研究主要涉及兩個方面,一方面是對單元格內的文本進行識別,這一步通常是在確定單元格區域后,利用較為穩定的光學字符識別方法(OCR)來實作,這一方面不是表格識別研究的重點,不在此展開;另一方面是基于整個表格內容進行的表格分類、單元格分類、以及表格資訊抽取等任務,這是當前表格識別研究的熱門領域之一,下文會對表格資訊抽取進行展開講述,
從檔案中抽取關鍵資訊已經被研究了幾十年,在基于深度學習的方法出現之前,早期的作業主要依賴于已知模板中的一些規則或人為設計的特性,因此它們通常在沒見過的模板上失敗,在實際應用中不可適配,隨著深度學習的發展,在資訊抽取領域取得了重大進展,
如上所述,大多數基于深度學習的方法將資訊抽取定義為一個token分類問題,除了上述作業外,M. Carbonell還提出了一種基于CNN的方法,即從輸入的檔案影像中聯合進行手寫文本檢測、轉錄和命名物體識別,除了這個范式之外,資訊抽取也可以作為其他問題來表述,Majumder等人提出了一種利用先驗知識提取關鍵領域值的方法,對于每個欄位,首先選擇一些候選詞,然后,將每個單詞的結構嵌入其背景關系資訊,計算該嵌入與目標域嵌入之間的余弦相似值作為相似度得分,
SPADE(SPAtial DEpendency parser)[W. Hwang等人] 將資訊抽取定義為一個空間依賴性決議問題,它構建了一個以文本段和欄位作為圖節點的依賴圖,然后使用解碼器從識別的圖節點之間的連通性中提取欄位值,BROS(BERT Relying On Spatiality)[Hong等人] 通過提出了一種新的位置編碼方法和一種基于區域掩蔽的預訓練目標,進一步改進了SPADE,另一類方法[R. B. Palm等人,H. Guo等人,C. Sage等人]采用在其他NLP或影像理解任務中使用的序列到序列模型,直接預測關鍵欄位的所有值,而不需要字符監督,
Xiao等人構建了一個具有句子嵌入的二維文本嵌入圖,并將該文本圖和視覺特征與全卷積網路相結合,用于表格、章節標題、標題、段落等影像區域的像素級分割,Raphael等人提出了一種多模態神經模型,通過將一個二維文本嵌入到CNN模型的中間層,以便在歷史報紙上進行更細粒度的分割任務,
還有一些研究人員認為,檔案的影像特征非常有用,因為影像特征是字體、字形、顏色等的混合表示,由于資訊抽取任務涉及檔案影像,一些研究人員將其視為一項純粹的計算機視覺任務,這些方法從光學字符識別(OCR)的角度解決了資訊抽取任務,對于每一種型別的物體,這些方法設計了相應的解碼器,負責識別文本內容并確定其類別,由于缺乏語意特征,這種方法在面對復雜的布局時不能很好地作業,
研究人員從不同的角度探討了資訊抽取任務,Hwang等人和Jiang等人基于坐標資訊序列化文本片段,并將坐標輸入到序列標記器,然而,簡單地將該位置視為某種特征,可能不能充分利用文本之間的視覺關系,為了充分利用語意特征和位置資訊,Chargrid [Katti等人]將字符映射到一個熱向量上,從而填充檔案影像上的字符區域,將帶有語意資訊的影像輸入CNN進行檢測,并進行語意分割,提取物體,后來的BERTgrid [Denk和Reisswig等人]采用了類似的方法,但使用了不同的單詞嵌入方法,然而,它通過使用通道特性來表示語意,引入了大量的計算,特別是具有大類別的語言,
因此,以語意特征作為節點特征,以文本片段的空間位置特征作為邊緣特征,構建全域檔案圖通常是一種更好的解決方案,另外幾種方法[Qian等人,Liu等人,Yu等人,Gal等人,Cheng等人]使用GNN對檔案的布局資訊進行建模,通過節點之間傳遞的訊息,這些模型可以學習每個文本的總體布局和分布,這有助于后續的物體提取,例如,Gui 等人提出了一種基于詞匯的圖神經網路,將中文NER(命名物體識別)視為節點分類任務,此外,GraphIE [Qian等人]和Liu等人提出的模型通過GNN提取視覺特征,增強BiLSTM-CRF模型的輸入,被證明是有效的,與全連接或手工制作的圖不同,PICK [Yu等人]通過圖學習預測了節點之間的連接,這也提高了結果,這些方法使用GNN編碼文本嵌入,給定視覺上豐富的背景關系,以隱式地學習鍵-值關系,
表格資訊抽取方面,國外的研究者在基于序列的方法上比較突出,提出了LAMBERT,TILT等一批優秀的模型,這與國外長期積累的語言模型發展經驗有關,在基于二維特征網格的方法上國外也有較早的探索,提出了Chargrid和BERTgrid等經典模型,而對于基于圖的方法研究較少;而國內的研究者在基于圖和基于二維特征網格的方法上有著世界領先的水平,PICK,MatchVIE和ViBERTGrid等方法在各種資訊抽取任務上名列前茅,總的來說,近年來國內外研究者對表格內容識別都非常關注,這一領域的方法也呈現出多元化發展的態勢,
參考文獻:
Gao L C, Li Y B, Du L, Zhang X P, Zhu Z Y, Lu N, Jin L W, Huang Y S, Tang Z . 2022. A survey on table recognition technology. Journal of Image and Graphics, 27(6): 1898-1917.
M Kasem , A Abdallah, A Berendeyev,E Elkady , M Abdalla, M Mahmouda, M Hamada, D Nurseitovd, I Taj-Eddin. Deep learning for table detection and structure recognition: A survey. arXiv:2211.08469v1 [cs.CV] 15 Nov 2022
Lin W, Gao Q, Sun L, Zhong Z, Hu K and Ren Q.2021.Vibertgrid: a jointly trained multi-modal 2d document representation for key information extraction from documents.2021 International Conference on Document Analysis and Recognition (ICDAR), pp.548-563
Tang G, Xie L, Jin L, Wang J, Chen J, Xu Z, Wang Q, Wu Y, Li H.2021.MatchVIE: Exploiting Match Relevancy between Entities for Visual Information Extraction.[arXiv: 2106.12940]
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/554980.html
標籤:其他
上一篇:自然語言處理 Paddle NLP - 詞向量應用展示
下一篇:返回列表
