1,百度搜索Tesseract-OCR下載 Tesseract-orc-setup-3.02.02.exe ,要記得自己的安裝目錄(博主的安裝路徑為:C:\Program Files(x86)\Tesseract-OCR),等會配置環境變數要用,
如果不是做英文的圖文識別,還需要下載其他語言的識別包 其他語言各版本的識別包下載 ,如簡體字識別包對應的是chi_sim.traineddata ,繁體字識別包對應的是chi_tra.traineddata ,
還有其他的安裝包下載地址:
穩定版:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-3.05.01.exe
開發版:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe
2,我安裝的是開發版



這里可以展開選擇自己喜歡的語言包,由于我處理的是舊報紙系列,所以繁體字、簡體字最好都有,順便把英文的也留下叭


選擇安裝位置

開始選單名稱(目前不知道是用來干嘛的)

報錯了,如下
解決方法
https://blog.csdn.net/qq_41897154/article/details/109499741
發現一個大佬的建議,先留著地址https://github.com/PaddlePaddle/PaddleOCR

看到一個字庫制作的,感覺有點厲害
https://www.cnblogs.com/wangkevin5626/p/9640165.html
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/218628.html
標籤:其他
上一篇:以太坊生態大宕機

