我想用python決議一個網頁,它實際上是一個PDF檔案。 下面是一個PDF網頁樣本的鏈接:
poppler utils中的命令列是
pdftohtml -f 1 -l 2 -fmt png -p -c http://www.jsu.edu/ire/factbook/JSUFactbook14-15./span>pdf index.htm
不要指望它有多快,它必須下載整個檔案來尋找并對每一頁上的所有隨機物件進行排序。
例如,如果您正在搜索 "第一個 "杰克遜維爾州立大學,它位于物件編號6,855的前半部分,并可能在單詞Book的上方找到,而Book也是同一物件的一部分,因此這兩行要么是作為一個整體插入,要么是后來合并到第1頁,在使用InDesign設計封面并隨后添加時經常出現這種情況。
一旦檔案被下載、解密并被pdftohtml排序后,它就可以開始為每一頁組成HTML,并為這些頁面添加書簽。這是一個緩慢的程序,如果你只通過設定-l 1代替-l 2來決議第一頁,也不會快多少。
轉載請註明出處,本文鏈接:https://www.uj5u.com/caozuo/314867.html
標籤:
上一篇:決議器-找到錯誤的FCS
