我有一個 PDF 檔案(那是我的教科書),問題是雖然文本列印正常,但它以一些隨機字形的形式復制。我發現,這是因為文本在 cp1251 上編碼但試圖被解碼為 cp1252(或反之亦然,但復制的字形屬于 1252)。將文本粘貼到解碼器從 1252 到 1251 我可以獲得原始文本(圖片相關)

為了解決我的文本搜索和復制問題,我只使用了 OCR,但也許有一種方法可以更改某些 pdf 標題中的編碼?另外我確實需要復制一些學校研討會的插圖,但是 Inkscape 和 AI 仍然在 1252 中輸出這些字形。
在 Adob??e Acrobat DC 中打開文本,我看到他在抱怨字體 1251 Times。在 Npp 我發現了這樣的
1146 0 obj
<<
/Ascent 756
/CapHeight 750
/Descent -195
/Flags 32
/FontBBox [-91 -224 1237 943]
/FontFamily (1251 Times)
/FontFile2 1147 0 R
/FontName /OGAHOK 1251Times
/FontStretch /Normal
/FontWeight 400
/ItalicAngle 0
/StemV 90
/Type /FontDescriptor
>>
endobj
1145 0 obj
<<
/BaseFont /OGAHOK 1251Times
/Encoding /WinAnsiEncoding
/FirstChar 32
/FontDescriptor 1146 0 R
/LastChar 255
/Subtype /TrueType
/Type /Font
/Widths [351 0 0 0 0 0 828 0 392 392 0 0 326 448 288 455 531 533 532 532 532 532 532 531 531 532 288 0 0 0 0 0 864 724 714 776 0 706 0 0 875 417 0 0 0 0 882 0 661 0 770 599 678 0 0 983 0 0 0 0 0 0 0 0 0 495 539 499 565 489 322 491 583 294 0 532 287 887 590 566 563 0 376 385 332 568 486 729 0 503 476 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 554 554 0 952 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 896 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 699 714 0 747 0 0 597 886 0 812 0 1034 875 0 877 0 776 678 729 0 0 858 0 0 0 0 0 0 759 0 0 495 559 523 434 539 489 757 449 622 622 577 550 715 636 566 622 563 499 468 503 764 500 621 553 880 880 0 760 501 517 820 546]
>>
endobj
1150 0 obj
<<
/Filter /FlateDecode
/Length1 32416
/Length 24094
>>
stream
通過用 1252 替換所有出現的 1251,我一無所獲。做這件事的正確方法是什么?有這樣正確的方法嗎?
uj5u.com熱心網友回復:
OGAHOK 1251Times(或類似的六個隨機字符和一個字體的名稱標簽)
很經常指示源被認定為OCR(一個字符相對于另一個),因此每個字母 或字母線或字母都可以有其自己的字體頁面,在這里查找喜歡的Times Roman中,當你發現,1251風格刻字。
因此,將名稱更改為 1252 就像說 Times 是 Verdana,它無法更改原始資料。
我很驚訝,但為您感到高興,您可以將一些可讀的 1251 轉換為 1252,但是在可能損壞的字體指標中進行合理的轉換幾乎不可能一次將一個符號替換為另一個符號并保持字串形狀,請參閱不斷變化的/Widths。
但是,如果沒有基于經驗的基礎 PDF 檔案,而不是您的來源失敗。
[更新]
哇!該檔案有 600 種字體!有些東西處理得不好
問題似乎源于使用 WinAnsiEncoding 而不是某些 UTF-8 或兼容的編碼方法。我想看看是否有任何修改方法,但不確定它是否可以幫助或使事情變得更糟。在這里,我可以嘗試編輯設定,但在 Tracker PDF X-change Editor 的此螢屏截圖中,進行更改無濟于事,除非文本被剪切、轉換并粘貼回。

轉載請註明出處,本文鏈接:https://www.uj5u.com/yidong/377365.html
