OCR Tesseract 識別報 empty page-有解無憂

[b]我現在在弄一個中文的字庫只有一種字體，根據每個漢字對應的生成一張圖片，然后把多個漢字生成的BOX,TR檔案進行合并，生成一個大的字庫。
現在問題是對單個漢字生成的圖片用這個cmd 命令生成box檔案的時候《tesseract chi_sim.宋體.的.jpg chi_sim.宋體.的 -l chi_sim batch.nochop makebox》就會報 empty page 這個

，不知道是什么原因。在網上找了很多資料，也沒找到具體的原因，之后看了下生成后的box檔案中的內容，其實就是《字 X Y 高寬》這種內容
，所以在生成box檔案的時候，就手動創建了一個box型別的檔案然后往里面寫內容，這個問題就跳過了，到后面還有一步很重要的操作，用這個cmd《tesseract chi_sim.宋體.地.tif chi_sim.宋體.地 nobatch box.train》，就是生成tr檔案，這個時候也需要用到漢字生成的圖片，問題又回到之前了，生成tr 的時候，也會報 empty page ，

有時候生成tr 也會報這種

然后我又想用之前box 的方法手動去寫，但是tr 里面的內容看不懂，沒法手動寫，之前也沒搞過ocr識別，就卡在這了，有沒有兄弟遇到過這種問題，我一直懷疑是不是生成圖片的問題，因為單個漢字生成的圖片只有1-2KB ，搞不懂，跪求啊

uj5u.com熱心網友回復：

你的樣本圖片要白底黑字

uj5u.com熱心網友回復：

樓主，搞出來了么？？我問題和你一樣，￥這個字符想單獨訓練，一直empty page

uj5u.com熱心網友回復：

留！白底黑字不行。即使去燥也沒解決。反正單字母，單數字無法識別。

uj5u.com熱心網友回復：

已解決。
生成box命令用：tesseract xx.tif xx --psm 10 batch.nochop makebox。（關鍵去看psm引數）
java代碼識別用：instance.setPageSegMode(TessPageSegMode.PSM_SINGLE_CHAR);（關鍵去看原始碼TessPageSegMode這個借口）
希望能幫助到后面看到的人

uj5u.com熱心網友回復：

為什么我會報 read_params_file: Can't open 10，哭泣

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/242519.html

標籤：人工智能技術

上一篇：很費解，為何必須在hadoop-env.sh中配置JAVA_HOME環境變數？系統默認的JAVA_HOME為什么讀不到？

下一篇：昨天在官網上剛買了KoolMoves，英文版不懂，有大佬有這款軟體的視頻教程么？在線等，急急急，