主頁 >  其他 > 常用的表格檢測識別方法——表格結構識別方法(上)

常用的表格檢測識別方法——表格結構識別方法(上)

2023-05-25 08:19:05 其他

第三章 常用的表格檢測識別方法

3.2表格結構識別方法

 

 表格結構識別是表格區域檢測之后的任務,其目標是識別出表格的布局結構、層次結構等,將表格視覺資訊轉換成可重建表格的結構描述資訊,這些表格結構描述資訊包括:單元格的具體位置、單元格之間的關系、單元格的行列位置等,

 

在當前的研究中,表格結構資訊主要包括以下兩類描述形式:1)單元格的串列(包含每個單元格的位置、單元格 的行列資訊、單元格的內容);2)HTML代碼或Latex代碼(包含單元格的位置資訊,有些也會包含單元格的內容),

 

 與表格區域檢測任務類似,在早期的表格結構識別方法中,研究者們通常會根據資料集特點,設計啟發式演算法或者使用機器學習方法來完成表格結構識別任務,

 

Itonori(1993)根據表格中單元格的二維布局的 規律性,使用連通體分析抽取其中的文本塊,然后 對每個文本塊進行擴展對齊形成單元格,從而得到 每個單元格的物理坐標和行列位置,

 

Rahgozar等人 (1994)則根據行列來進行表格結構的識別,其先 識別出圖片中的文本塊,然后按照文本塊的位置以及兩個單元格中間的空白區域做行的聚類和列的聚類,之后通過行和列的交叉得到每個單元格的位 置和表格的結構,

 

Hirayama等人(1995)則從表格線出發,通過平行、垂直等幾何分析得到表格的行和列,并使用動態規劃匹配的方法對各個內容塊進 行邏輯關系識別,來恢復表格的結構,

 

Zuyev(1997) 使用視覺特征進行表格的識別,使用行線和列線以及空白區域進行單元格分割,該演算法已經應用到FineReader OCR產品之中,

 

Kieninger等人(1998) 提出了T-Recs(Table RECognition System)系統,以 詞語區域的框作為輸入,并通過聚類和列分解等啟 發式方法,輸出各個文本框對應的資訊,恢復表格 的結構,隨后,其又在此基礎上提出了T-Recs++系 統(Kieninger等,2001),進一步提升了識別效果,

 

Amano等人(2001)創新性地引入了文本的語意資訊,首先將檔案分解為一組框,并將它們半自動地 分為四種型別:空白、插入、指示和解釋,然后根據 檔案結構語法中定義的語意和幾何知識,分析表示 框與其關聯條目之間的框關系,

 

Wang等人(2004) 將表格結構定義為一棵樹,提出了一種基于優化方 法設計的表結構理解演算法,該演算法通過對訓練集中 的幾何分布進行學習來優化引數,得到表格的結構, 同樣使用樹結構定義表格結構的還有Ishitani等人 (2005),其使用了DOM(Document Object Model) 樹來表示表格,從表格的輸入影像中提取單元格特 征,然后對每個單元格進行分類,識別出不規則的 表格,并對其進行修改以形成規則的單元格排布,

 

Hassan(2007)、Shigarov(2016)等人則以PDF檔案為表格識別的載體,從PDF檔案中反解出表格視 覺資訊,后者還提出了一種可配置的啟發式方法框架,

 

國內的表格結構識別研究起步較晚,因此傳統的啟發式方法和機器學習方法較少,

 

在早期,Liu等 人(1995)提出了表格框線模板方法,使用表格的 框架線構成框架模板,可以從拓撲上或幾何上反映 表格的結構,然后提出相應的項遍歷演算法來定位和 標記表格中的項,之后Li等人(2012)使用OCR引擎抽取表單中的文本內容和文本位置,使用關鍵詞 來定位表頭,然后將表頭資訊和表的投影資訊結合 起來,得到列分隔符和行分隔符來得到表格結構,

 

總體來說,表格結構識別的傳統方法可以歸納為以下四種:基于行和列的分割與后處理,基于文本的檢測、擴展與后處理,基于文本塊的分類和后處理,以及幾類方法的融合,

 

隨著神經網路的興起,研究人員開始將它們應用于檔案布局分析任務中,后來,隨著更復雜的架構的發展,更多的作業被放到表列和整體結構識別中,

 

  A Zucker提出了一種有效的方法CluSTi,是一種用于識別發票掃描影像中的表格結構的聚類方法,CluSTi有三個貢獻,首先,它使用了一種聚類方法來消除表格圖片中的高噪聲,其次,它使用最先進的文本識別技術來提取所有的文本框,最后,CluSTi使用具有最優引數的水平和垂直聚類技術將文本框組織成正確的行和列,Z Zhang提出的分割、嵌入和合并(SEM)是一個準確的表結構識別器,M Namysl提出了一種通用的、模塊化的表提取方法,

 

E Koci 提出了一種新的方法來識別電子表格中的表格,并在確定每個單元格的布局角色后構建布局區域,他們使用圖形模型表示這些區域之間的空間相互關系,在此基礎上,他們提出了洗掉和填充演算法(RAC),這是一種基于一組精心選擇的標準的表識別演算法,

 

SA Siddiqui利用可變形卷積網路的潛力,提出了一種獨特的方法來分析檔案圖片中的表格模式,P Riba提出了一種基于圖的識別檔案圖片中的表格結構的技術,該方法也使用位置、背景關系和內容型別,而不是原始內容(可識別的文本),因此它只是一種結構性感知技術,不依賴于語言或文本閱讀的質量,E Koci使用基于遺傳的技術進行圖劃分,以識別與電子表中的表格匹配的圖的部分,

 

SA Siddiqui將結構識別問題描述為語意分割問題,為了分割行和列,作者采用了完全卷積網路,假設表結構的一致性的情況下,該方法引入了預測拼接方法,降低了表格結構識別的復雜性,作者從ImageNet匯入預先訓練的模型,并使用FCN編碼器和解碼器的結構模型,當給定影像時,模型創建與原始輸入影像大小相同的特征,

 

SA Khan提出了一個魯棒的基于深度學習的解決方案,用于從檔案圖片中已識別的表格中提取行和列,表格圖片經過預處理,然后使用門控遞回單元(GRU)和具有softmax激活的全連接層發送到雙向遞回神經網路,SF Rashid提供了一種新的基于學習的方法來識別不同檔案圖片中的表格內容,SR Qasim提出了一種基于圖網路的表識別架構,作為典型神經網路的替代方案,S Raja提出了一種識別表格結構的方法,該方法結合了單元格檢測和互動模塊來定位單元格,并根據行和列預測它們與其他檢測到的單元格的關系,此外,增加了結構限制的損失功能的單元格識別作為額外的差異組件,Y Deng 測驗了現有的端到端表識別的問題,他還強調了在這一領域需要一個更大的資料集,

 

 Y Zou的另一項研究呼吁開發一種利用全卷積網路的基于影像的表格結構識別技術,所示的作業將表格的行、列和單元格劃分,所有表格組件的估計邊界都通過連接組件分析進行了增強,根據行和列分隔符的位置,然后為每個單元格分配行和列號,此外,還利用特殊的演算法優化單元格邊界,

 

為了識別表中的行和列,KA Hashmi [118]提出了一種表結構識別的引導技術,根據本研究,通過使用錨點優化方法,可以更好地實作行和列的定位,在他們提出的作業中,使用掩模R-CNN和優化的錨點來檢測行和列的邊界,

 

另一項分割表格結構的努力是由W Xue撰寫的ReS2TIM論文,它提出了從表格中對句法結構的重建,回歸每個單元格的坐標是這個模型的主要目標,最初使用該新技術構建了一個可以識別表格中每個單元格的鄰居的網路,本研究給出了一個基于距離的加權系統,這將有助于網路克服與訓練相關的類不平衡問題,

 

C Tensmeyer提出了SPLERGE(Split and Merge),另一種使用擴展卷積的方法,他們的策略需要使用兩種不同的深度學習模型,第一個模型建立了表的網格狀布局,第二個模型決定了是否可能在許多行或列上進行進一步的單元格跨度,

 

Nassar為表格結構提供了一個新的識別模型,在兩個重要方面增強了PubTabNet端到端深度學習模型中最新的encoder-dual-decoder,首先,作者提供了一種全新的表格單元目標檢測解碼器,這使得它們可以輕松地訪問編程pdf中的表格單元格的內容,而不必訓練任何專有的OCR解碼器,作者稱,這種體系結構的改進使表格內容的提取更加精確,并使它們能夠使用非英語表,第二,基于transformer的解碼器取代了LSTM解碼器,

 

S Raja提出了一種新的基于目標檢測的深度模型,它被定制用于快速優化并捕獲表格內單元格的自然對齊,即使使用精確的單元格檢測,密集的表格識別也可能仍然存在問題,因為多行/列跨越單元格使得捕獲遠程行/列關系變得困難,因此,作者也尋求通過確定一個獨特的直線的基于圖的公式來增強結構識別,作者從語意的角度強調了表格中空單元格的相關性,作者建議修改一個很受歡迎的評估標準,以考慮到這些單元格,為了促進這個問題的新觀點,然后提供一個中等大的進行了人類認知注釋后的評估資料集,

X Shen提出了兩個模塊,分別稱為行聚合(RA)和列聚合(CA),首先,作者應用了特征切片和平鋪,對行和列進行粗略的預測,并解決高容錯性的問題,其次,計算信道的attention map,進一步獲得行和列資訊,為了完成行分割和列分割,作者利用RA和CA構建了一個語意分割網路,稱為行和列聚合網路(RCANet),

 

C Ma提出了一種識別表格的結構并從各種不同的檔案圖片中檢測其邊界的新方法,作者建議使用CornerNet作為一種新的區域候選網路,為fasterR-CNN生成更高質量的候選表格,這大大提高了更快的R-CNN對表格識別的定位精度,該方法只利用最小的ResNet-18骨干網路,此外,作者提出了一種全新的split-and-merge方法來識別表格結構,該方法利用一種新的spatial CNN分離線預測模塊將每個檢測表格劃分為一個單元網格,然后使用一個GridCNN單元合并模塊來恢復生成單元格,它們的表格結構識別器可以準確地識別具有顯著空白區域的表格和幾何變形(甚至是彎曲的)表格,因為spatial CNN模塊可以有效地向整個表圖片傳輸背景關系資訊,B Xiao假設一個復雜的表格結構可以用一個圖來表示,其中頂點和邊代表單個單元格以及它們之間的連接,然后,作者設計了一個conditional attention網路,并將表格結構識別問題描述為一個單元格關聯分類問題(CATT-Net),

 

Jain建議訓練一個深度網路來識別表格圖片中包含的各種字符對之間的空間關系,以破譯表格的結構,作者提供了一個名為TSR-DSAW的端到端pipeline:TSR,通過深度空間的字符聯系,它以像HTML這樣的結構化格式生成表格圖片的數字表示,該技術首先利用文本檢測網路,如CRAFT,來識別輸入表圖片中的每個字符,接下來,使用動態規劃,創建字符配對,這些字符配對在每個單獨的影像中加下劃線,然后交給DenseNet-121分類器,該分類器被訓練來識別同行、同列、同單元格或無單元格等空間相關性,最后,作者將后處理應用于分類器的輸出,以生成HTML表格結構,

 

H Li將這個問題表述為一個單元格關系提取的挑戰,并提供了T2,一種前沿的兩階段方法,成功地從數字保存的文本中提取表格結構,T2提供了一個廣泛的概念,即基本連接,準確地代表了單元格之間的直接關系,為了找到復雜的表格結構,它還構建了一個對齊圖,并使用了一個訊息傳遞網路,

實際場景應用中的表格結構識別,不僅要同時完成表格檢測和結構識別,還要對每個單元格的文本進行識別和資訊抽取,其流程比以上的研究領域都更為復雜,

 

 

 

 

 

 

參考文獻:

Gao L C, Li Y B, Du L, Zhang X P, Zhu Z Y, Lu N, Jin L W, Huang Y S, Tang Z . 2022.A survey on table recognition technology. Journal of Image and Graphics, 27(6): 1898-1917.

M Kasem , A Abdallah, A Berendeyev,E Elkady , M Abdalla, M Mahmouda, M Hamada, D Nurseitovd, I Taj-Eddin.Deep learning for table detection and structure recognition: A survey.arXiv:2211.08469v1 [cs.CV] 15 Nov 2022

S A Siddiqui , M I Malik,S Agne , A Dengel and S Ahmed. DeCNT: Deep Deformable CNN for Table Detection. in IEEE Access, vol.6, pp.74151-74161, [DOI: 10.1109/ACCESS.2018.2880211]

T Shehzadi, K A Hashmi, D Stricker, M Liwicki , and M Z Afzal.Towards End-to-End Semi-Supervised Table Detection with Deformable Transformer.arXiv:2305.02769v2 [cs.CV] 7 May 2023

 

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/553307.html

標籤:其他

上一篇:實體解讀華為云數字工廠平臺的邏輯模型編排器

下一篇:返回列表

標籤雲
其他(159625) Python(38169) JavaScript(25446) Java(18123) C(15231) 區塊鏈(8268) C#(7972) AI(7469) 爪哇(7425) MySQL(7208) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5873) 数组(5741) R(5409) Linux(5340) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4576) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2433) ASP.NET(2403) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) .NET技术(1976) 功能(1967) Web開發(1951) HtmlCss(1942) C++(1922) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1878) .NETCore(1861) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 常用的表格檢測識別方法——表格結構識別方法(上)

    表格結構識別是表格區域檢測之后的任務,其目標是識別出表格的布局結構、層次結構等,將表格視覺資訊轉換成可重建表格的結構描述資訊。這些表格結構描述資訊包括:單元格的具體位置、單元格之間的關系、單元格的行列位置等。在當前的研究中,表格結構資訊主要包括以下兩類描述形式:1)單元格的串列(包含每個單元格的位置... ......

    uj5u.com 2023-05-25 08:19:05 more
  • 實體解讀華為云數字工廠平臺的邏輯模型編排器

    摘要: 本期結合一個“生產執行管理”案例場景涉及的相關業務活動流程,系統地介紹了華為云數字工廠平臺的邏輯模型編排器的使用方法。 本文分享自華為云社區《數字工廠深入淺出系列(三):邏輯模型編排器的使用方法介紹》,作者:云起MAE 。 華為云數字工廠平臺的制造應用構建引擎(Manufacturing A ......

    uj5u.com 2023-05-25 08:12:39 more
  • 開發者福利來了 | 京東云全系核心產品公開比價:我們承諾,買貴就賠!

    今天我們官宣一件大事:京東云開啟中國云市場的首次公開比價活動,承諾“買貴就賠”! 比價活動的底氣,來源于京東云對技術降本的不懈追求——京東二十年來大規模的場景實踐,推動京東云持續加大自研技術投入,提高資源利用率,進而最大化降低成本。今年3月,京東云負責人在京東云城市峰會廣州站上提出,極致性價比是下一 ......

    uj5u.com 2023-05-25 08:05:48 more
  • 云圖說丨初識商標注冊服務

    摘要:華為云為您提供商標查詢、商標智能注冊、商標顧問注冊、商標無憂注冊等服務,幫助您便捷高效地注冊、維護和管理商標。 本文分享自華為云社區《【云圖說】第278期 初識商標注冊服務》,作者: 閱識風云。 商標注冊是商標使用人取得商標專用權的前提和條件,只有經核準注冊的商標,才受法律保護。華為云為您提供 ......

    uj5u.com 2023-05-25 08:05:42 more
  • Unity中Button的調色

    Unity的Button功能在游戲開發中是非常常用的,今天筆者來簡單介紹一下Button的調色,以便使其更美觀。 首先,是之前筆者遇到過的一個問題,在我們新建了一個Button之后,它會像我下面的開始游戲按鈕一樣,背景呈現出白色,與我們游戲開始選單的顏色很不符合。 我們可以在Inspector視窗找 ......

    uj5u.com 2023-05-25 08:05:23 more
  • 大佬們 有沒有unity游戲開發的一些群呀,可以在底下評論一下嗎??

    歡迎大家的評論哦 下面是一些雜談: 如何提高游戲開發水平 要提高游戲開發水平,你可以考慮以下幾個方面: 1. **學習和實踐游戲開發基礎知識**:了解游戲開發的基本概念、原理和流程。學習編程語言(如C#、C++)、游戲引擎(如Unity、Unreal Engine)和相關工具的使用方法。 2. ** ......

    uj5u.com 2023-05-25 08:05:16 more
  • 94關找不同找茬游戲圖片及坐標EXCEL資料

    找不同找茬類的游戲是最沒有門檻的游戲,大人小孩都可以參與的眼力競技,我就時常與我6歲的孩子比賽,卻陪件了孩子,又識訓了快樂。需要更多記錄的找不同資料可以查看《780關高清找不同找茬圖片ACCESS資料庫》和《上千個看圖找茬游戲資料包含圖片》。 坐標欄位與分號分隔,分別是X值、Y值、W寬度、高度,具體 ......

    uj5u.com 2023-05-25 08:05:04 more
  • AtCoder Beginner Contest 302 H. Ball Collector 題解

    [AtCoder Beginner Contest 302 H. Ball Collector](https://atcoder.jp/contests/abc302/tasks/abc302_h) 題意跳過。 可以視作將 $a_i, b_i$ 之間連了一條邊,然后 $a_i, b_i$ 之間只能選 ......

    uj5u.com 2023-05-25 08:04:50 more
  • 學系統集成專案管理工程師(中項)系列26_新興資訊技術

    ![](https://img2023.cnblogs.com/blog/3076680/202305/3076680-20230510164734490-1639272335.png) # 1. 云計算 ## 1.1. 基于互聯網的超級計算模式,通過互聯網來提供大型計算能力和動態易擴展的虛擬化資源 ......

    uj5u.com 2023-05-25 08:04:23 more
  • 功能安全、預期功能安全與資訊安全的差異與協同

    今天的汽車行業面臨最大的挑戰之一,就是從過去基于硬體的車輛過渡到軟體定義汽車的時代。當軟體成為造車行業發展的主要領域,越來越多的OEM和零部件供應商逐步轉型為軟體公司。汽車也單純的從出行工具變成了移動的計算機,汽車的開發越來越像在四個輪子上去開發車載電腦。 隨著智能網聯汽車的快速發展,新技術不斷涌現 ......

    uj5u.com 2023-05-25 08:04:01 more