我使用 PHP 的 pdftotext 從 pdf 創建了很多 .txt 檔案。
像這樣使用它,它完美地適用于所有檔案中的所有文本部分:
system("pdftotext -raw dir/$pdf_file 2>&1");
問題
但是,在新的 .txt 檔案中,pdf 中的所有影像都顯示為:
- 'FF' 在 FTP 中打開檔案時
- 在瀏覽器中使用 urlencode 字符 '' (fopen)
- 沒有 urlencode 的向上箭頭 (fopen)
- ^L,當在命令列上使用 less 時(在 CentOs 7 中),即使在單個檔案名上sed 's/^L//g'也不起作用。
所以,在所有這些視圖中,我有不同的方法來處理這個奇怪的字符。
問題
在嘗試了一個星期的這么多代碼之后,我仍在尋找一種方法來從所有 .txt 檔案中找到并洗掉這個奇怪的影像字符。
有解決方案嗎?
或者,在這里做什么是明智的?使用帶有代碼的 php 檔案還是在命令列上作業?我現在對這個有點迷失了。
uj5u.com熱心網友回復:
列印純文本時的代碼約定是 FF 通常意味著 FormFeed 它是列印機的控制代碼
↑ 12 00/12 14 FF (CtrL=^L) FORM FEED (分頁符)
這是一種指示/彈出頁尾的方法,因此您應該在頁面之間的分隔處看到一個。
有一個開關可以洗掉/排除它們,所以試試吧,
system("pdftotext -raw -nopgbrk dir/$pdf_file 2>&1");
轉載請註明出處,本文鏈接:https://www.uj5u.com/qianduan/388387.html
上一篇:Bash命令:頭
