目前用的是tess4j,網上下的chi_sim.traineddata有50MB左右,識別率非常低,想自己訓練又沒時間,公司也安排不出人手。有沒有識別率高的,90%左右就行,可以申請讓公司出錢買。
不考慮百度、阿里、騰訊的在線識別服務,因為客戶的服務器不允許連接外網,跟企業審計相關的涉密服務器沒辦法。
uj5u.com熱心網友回復:
這個還真不好弄,LZ有時間還是自己訓練試試吧,挺折騰的首先字體圖片不好到手,其次要訓練哪種字體也不好范圍確定(比如需要宋體,楷體等),第三,訓練檔案好像對字體的最大型別有限值(我記得當時做的時候,超過60種字體就不支持(猜測是訓練字體太多最后生成的字體檔案size太大,所以做了限制,或許可以考慮按60種字體做成多個字體檔案后再合并,當時沒時間去深究了),所以說你需要什么字體你要定好),但是你要求的90%識別率,由于前面的限制條件,那就不好說了,比如識別的字體沒有出現在你訓練的字體里,有可能識別率為0。
uj5u.com熱心網友回復:
用這個試試呢https://github.com/tesseract-ocr/tesseract/wiki
uj5u.com熱心網友回復:
這個要翻墻嗎,訪問不得呢轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/236715.html
標籤:Web 開發
