求助,使用pdfplumber讀取文本存在文字重復

比如說 pdf中顯示的是 【魯迅】 讀取到的是 【魯魯迅迅】
有沒有大佬知道怎么處理?
uj5u.com熱心網友回復:
可以寫一段程式,遍歷決議得到的文本,如果有兩個相同的文字就將兩個相同的字符替換為一個字符,否則繼續;這樣能夠解決重復字符的問題,不過可能會誤刪一些正常的疊詞,我遇到的重復情況是4個重復字符,不容易影響到正常的文本
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/14938.html
上一篇:Python能否實作以下功能
