菜單

主頁 > 區塊鏈 > Borb閱讀pdf導致所有字母之間有空格

Borb閱讀pdf導致所有字母之間有空格

2022-05-14 13:14:16 區塊鏈

我正在嘗試使用 borb 從 pdf 中提取文本。一些 pdf 效果很好，但是當嘗試從一些 pdf 中提取文本時，我在所有字母和空格之間得到了額外的空格。看起來像：

I N B E T A L N I N G / G I R E R I N G A V 如果我計算空格并注意到比平時多，我可以使用正則運算式以某種方式在任何地方洗掉一個空格嗎？所以它看起來像：

INBETALNING / GIRERING AV

uj5u.com熱心網友回復：

免責宣告：我是作者borb

pdf 檔案并不真正包含文本。它包含 Adob??e Reader 等程式將執行的渲染指令。這些指令會產生一些人類可能會解釋為文本的東西。

例如：

轉到位置 30, 50
使用字體 Helvetica
將顏色設定為黑色
渲染字符“你好”
移動到 36、50
渲染字符“世界”

您會注意到“Hello World”中的空格并沒有在渲染說明中明確顯示。它可能是。但沒必要。許多 pdf 創建工具選擇不插入空格，而是移動繪圖游標。

現在這對于文本提取意味著軟體borb必須猜測何時插入空格。

它可以判斷兩個字符的邊界框相距多遠。

當然，如果渲染指令中沒有使用空格字符，它可能不會包含在字體資訊中。這稱為字體子集。創建專用字體的位置，僅包含實際使用的字符。

發生這種情況時，borb不知道空格字符應該有多寬。

borb將嘗試不同的啟發式方法：

檢查字體是否為等寬字體
檢查是否定義了足夠多的其他字符（例如“空格是字符“i”的兩倍寬）
恢復為默認值

如果您查看代碼，SimpleTextExtraction您將能夠看到這個邏輯在起作用。

我建議您對該類進行子類化，并對其進行修改以允許您（用戶）定義可接受的空格字符寬度。

特別看看這條線。

轉載請註明出處，本文鏈接：https://www.uj5u.com/qukuanlian/473757.html

標籤：Python pdf

上一篇：GETAPI呼叫以在R中提取PDF

下一篇：批量PDF水印[PDF->JPG->PDF]

標籤雲: 其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C＃(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽

JAVA使用 web3j 進行token轉賬
最近新學習了下區塊鏈這方面的知識，所學不多，給大家分享下。 # 1. 關于web3j web3j是一個高度模塊化，反應性，型別安全的Java和Android庫，用于與智能合約配合并與以太坊網路上的客戶端（節點）集成。 # 2. 準備作業 jdk版本1.8 引入maven <dependency> < ......
uj5u.com 2020-09-10 03:03:06 more
以太坊智能合約開發框架Truffle
前言部署智能合約有多種方式，命令列的瀏覽器的渠道都有，但往往跟我們程式員的風格不太相符，因為我們習慣了在IDE里寫了代碼然后打包運行看效果。雖然現在IDE中已經存在了Solidity插件，可以撰寫智能合約，但是部署智能合約卻要另走他路，沒辦法進行一個快捷的部署與測驗。如果團隊管理的區塊節點多、 ......
uj5u.com 2020-09-10 03:03:12 more
谷歌二次驗證碼成為區塊鏈專用安全碼，你怎么看？
前言谷歌身份驗證器，前些年大家都比較陌生，但隨著國內互聯網安全的加強，它越來越多地出現在大家的視野中。比較廣泛接觸的人群是國際3A游戲愛好者，游戲盜號現象嚴重+國外賬號安全應用廣泛，這類游戲一般都會要求用戶系結名為“兩步驗證”、“雙重驗證”等，平臺一般都推薦用谷歌身份驗證器。后來區塊鏈業務風靡 ......
uj5u.com 2020-09-10 03:03:17 more
密碼學DAY1
目錄 ##1.1 密碼學基本概念密碼在我們的生活中有著重要的作用，那么密碼究竟來自何方，為何會產生呢？密碼學是網路安全、資訊安全、區塊鏈等產品的基礎，常見的非對稱加密、對稱加密、散列函式等，都屬于密碼學范疇。密碼學有數千年的歷史，從最開始的替換法到如今的非對稱加密演算法，經歷了古典密碼學，近代密 ......
uj5u.com 2020-09-10 03:03:50 more
密碼學DAY1_02
目錄 ##1.1 ASCII編碼 ASCII（American Standard Code for Information Interchange，美國資訊交換標準代碼）是基于拉丁字母的一套電腦編碼系統，主要用于顯示現代英語和其他西歐語言。它是現今最通用的單位元組編碼系統，并等同于國際標準ISO/IE ......
uj5u.com 2020-09-10 03:04:50 more
密碼學DAY2
##1.1 加密模式加密模式：https://docs.oracle.com/javase/8/docs/api/javax/crypto/Cipher.html ECB ECB : Electronic codebook, 電子密碼本. 需要加密的訊息按照塊密碼的塊大小被分為數個塊，并對每個塊進 ......
uj5u.com 2020-09-10 03:05:42 more
NTP時鐘服務器的特點（京準電子）
NTP時鐘服務器的特點（京準電子） NTP時鐘服務器的特點（京準電子）京準電子官V——ahjzsz 首先對時間同步進行了背景介紹，然后討論了不同的時間同步網路技術，最后指出了建立全球或區域時間同步網存在的問題。一、概述在通信領域，“同步”概念是指頻率的同步，即網路各個節點的時鐘頻率和相位同步 ......
uj5u.com 2020-09-10 03:05:47 more
標準化考場時鐘同步系統推進智能化校園建設
標準化考場時鐘同步系統推進智能化校園建設標準化考場時鐘同步系統推進智能化校園建設安徽京準電子科技官微——ahjzsz 一、背景概述隨著教育事業的快速發展，學校建設如雨后春筍，隨之而來的學校教育、管理、安全方面的問題成了學校管理人員面臨的最大的挑戰，這些問題同時也是學生家長所擔心的。為了讓學生有更 ......
uj5u.com 2020-09-10 03:05:51 more
位元幣入門
引言位元幣基本結構位元幣基礎知識 1）哈希演算法 2）非對稱加密技術 3）數字簽名 4）MerkleTree 5）哪有位元幣，有的是UTXO 6）位元幣挖礦與共識 7）區塊驗證（共識）總結引言上一篇我們已經知道了什么是區塊鏈，此篇說一下區塊鏈的第一個應用——位元幣。其實先有位元幣，后有的區塊 ......
uj5u.com 2020-09-10 03:06:15 more
北斗對時服務器（北斗對時設備）電力系統應用
北斗對時服務器（北斗對時設備）電力系統應用北斗對時服務器（北斗對時設備）電力系統應用京準電子科技官微（ahjzsz）中國北斗衛星導航系統（英文名稱：BeiDou Navigation Satellite System，簡稱BDS），因為是目前世界范圍內唯一可以大面積提供免費定位服務的系統，所以 ......
uj5u.com 2020-09-10 03:06:20 more

最新发布

web3 產品介紹：metamask 錢包使用最多的瀏覽器插件錢包
Metamask錢包是一種基于區塊鏈技術的數字貨幣錢包，它允許用戶在安全、便捷的環境下管理自己的加密資產。Metamask錢包是以太坊生態系統中最流行的錢包之一，它具有易于使用、安全性高和功能強大等優點。本文將詳細介紹Metamask錢包的功能和使用方法。一、 Metamask錢包的功能數字資 ......
uj5u.com 2023-04-20 08:46:47 more
Hyperledger Fabric 使用 CouchDB 和復雜智能合約開發
在上個實驗中，我們已經實作了簡單智能合約實作及客戶端開發，但該實驗中智能合約只有基礎的增刪改查功能，且其中的資料管理功能與傳統 MySQL 比相差甚遠。本文將在前面實驗的基礎上，將 Hyperledger Fabric 的默認資料庫支持 LevelDB 改為 CouchDB 模式，以實作更復雜的資料... ......
uj5u.com 2023-04-16 07:28:31 more
.NET Core 波場鏈離線簽名、廣播交易（發送 TRX和USDT）筆記
Get Started NuGet You can run the following command to install the Tron.Wallet.Net in your project. PM> Install-Package Tron.Wallet.Net 配置 public reco ......
uj5u.com 2023-04-14 08:08:00 more
DKP 黑客分析——不正確的代幣對比率計算
概述： 2023 年 2 月 8 日，針對 DKP 協議的閃電貸攻擊導致該協議的用戶損失了 8 萬美元，因為 execute() 函式取決于 USDT-DKP 對中兩種代幣的余額比率。智能合約黑客概述：攻擊者的交易：0x0c850f，0x2d31 攻擊者地址：0xF38 利用合同：0xf34ad ......
uj5u.com 2023-04-07 07:46:09 more
Defi開發簡介
Defi開發簡介介紹 Defi是去中心化金融的縮寫，是一項旨在利用區塊鏈技術和智能合約創建更加開放，可訪問和透明的金融體系的運動. 這與傳統金融形成鮮明對比，傳統金融通常由少數大型銀行和金融機構控制在Defi的世界里，用戶可以直接從他們的電腦或移動設備上訪問廣泛的金融服務，而不需要像銀行或者信 ......
uj5u.com 2023-04-05 08:01:34 more
solidity簡單的ERC20代幣實作
// SPDX-License-Identifier: GPL-3.0 pragma solidity >=0.7.0 <0.9.0; import "hardhat/console.sol"; //ERC20 同質化代幣，每個代幣的本質或性質都是相同 //ETH 是原生代幣，它不是ERC20代幣, ......
uj5u.com 2023-03-21 07:56:29 more
solidity 參考型別修飾符memory、calldata與storage 常量修飾符C
在solidity語言中參考型別修飾符(參考型別為存盤空間不固定的數值型別) memory、calldata與storage,它們只能修飾參考型別變數，比如字串、陣列、位元組等... memory 適用于方法傳參、返參或在方法體內使用，使用完就會清除掉，釋放記憶體 calldata 僅適用于方法傳參 ......
uj5u.com 2023-03-08 07:57:54 more
solidity注解標簽
在solidity語言中注釋符為// 注解符為/* 內容*/ 或者是 ///內容注解中含有這幾個標簽給予我們使用 @title 一個應該描述合約/介面的標題 contract, library, interface @author 作者的名字 contract, library, interf ......
uj5u.com 2023-03-08 07:57:49 more
評價指標：相似度、GAS消耗
【代碼注釋自動生成方法綜述】這些評測指標主要來自機器翻譯和文本總結等研究領域,可以評估候選文本(即基于代碼注釋自動方法而生成)和參考文本(即基于手工方式而生成)的相似度. BLEU指標^[^?88^^?^]^:其全稱是bilingual evaluation understudy.該指標是最早用于 ......
uj5u.com 2023-02-23 07:27:39 more
基于NOSTR協議的“公有制”版本的Twitter,去中心化社交軟體Damus
最近，一個幽靈，Web3的幽靈，在網路游蕩，它叫Damus，這玩意詮釋了什么叫做病毒式營銷，滑稽的是，一個Web3產品卻在Web2的產品鏈上瘋狂傳銷，各方大佬紛紛為其背書，到底發生了什么？Damus的葫蘆里，賣的是什么藥？注冊和簡單實用很少有什么產品在用戶注冊環節會有什么噱頭，但Damus確實出 ......
uj5u.com 2023-02-05 06:48:39 more

友情鏈接

有解無憂