[b]我現在在弄一個中文的字庫只有一種字體,根據每個漢字對應的生成一張圖片,然后把多個漢字生成的BOX,TR檔案進行合并,生成一個大的字庫。
現在問題是 對單個漢字生成的圖片用這個cmd 命令生成box檔案的時候 《tesseract chi_sim.宋體.的.jpg chi_sim.宋體.的 -l chi_sim batch.nochop makebox》 就會報 empty page 這個


,不知道是什么原因。 在網上找了很多資料,也沒找到具體的原因,之后看了下生成后的box檔案中的內容 ,其實就是 《字 X Y 高 寬》這種內容
,所以在生成box檔案的時候 ,就手動創建了一個box型別的檔案然后往里面寫內容,這個問題就跳過了,到后面還有一步很重要的操作,用這個cmd《tesseract chi_sim.宋體.地.tif chi_sim.宋體.地 nobatch box.train》,就是生成tr檔案,這個時候也需要用到漢字生成的圖片,問題又回到之前了,生成tr 的時候,也會報 empty page ,

有時候生成tr 也會報這種

然后我又想用之前box 的方法 手動去寫,但是tr 里面的內容看不懂,沒法手動寫,之前也沒搞過ocr識別,就卡在這了,有沒有兄弟遇到過這種問題, 我一直懷疑是不是生成圖片的問題 ,因為單個漢字生成的圖片只有1-2KB ,搞不懂,跪求啊
uj5u.com熱心網友回復:
你的樣本圖片要白底黑字uj5u.com熱心網友回復:
樓主,搞出來了么??我問題和你一樣,¥這個字符想單獨訓練,一直empty pageuj5u.com熱心網友回復:
留!白底黑字不行。即使去燥也沒解決。反正單字母,單數字無法識別。uj5u.com熱心網友回復:
已解決。生成box命令用:tesseract xx.tif xx --psm 10 batch.nochop makebox。(關鍵去看psm引數)
java代碼識別用:instance.setPageSegMode(TessPageSegMode.PSM_SINGLE_CHAR);(關鍵去看原始碼TessPageSegMode這個借口)
希望能幫助到后面看到的人
uj5u.com熱心網友回復:
為什么我會報 read_params_file: Can't open 10,哭泣轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/242519.html
標籤:人工智能技術
上一篇:很費解,為何必須在hadoop-env.sh中配置JAVA_HOME環境變數?系統默認的JAVA_HOME為什么讀不到?
