請教各位大佬:我有2000千個PDF檔案和20個關鍵詞,,現在想在這些pdf里面批量搜索這些關鍵詞并回傳關鍵詞前后50個字的文本,,然后將結果匯出到excel,,看了很多帖子看不明白
,請高手幫忙指導下

uj5u.com熱心網友回復:
先分詞,然后統計就是了uj5u.com熱心網友回復:
大佬能不能幫忙寫下代碼


uj5u.com熱心網友回復:
首先能保證PDF是可讀成文本吧,其實找到一個遍歷就行了,試著先把PDF的全文搞出來uj5u.com熱心網友回復:
可以的,我用福昕PDF可以搜索出來,但是沒辦法匯出結果
uj5u.com熱心網友回復:
我給你提供一個思路吧。首先把pdf內容讀取成一個字串str
設定一個子串keywords
index = str.find(keywords)
這個函式會查找子串在字串里第一次出現的位置,如果找到了,會回傳子串的位置,如果沒有找到,會回傳-1,可以作判斷
有了子串位置,直接字串切片就可以得到子串前后50個字的內容了。
如果一篇文章中又多個相同的關鍵字(子串)
可以在執行第一次str.find()之后再次執行,因為它只查找第一個子串的位置,所以在后面幾次執行的時候,需要給他指定開始查找位置。
index_2 = str.find(keywords,index + len(keyword))其中,index + len(keywords)表示開始查找的位置。
uj5u.com熱心網友回復:
至于如何讀取pdf內容,你可以看這篇文章https://blog.csdn.net/weixin_42812527/article/details/90166966轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/10205.html
上一篇:mitmproxy安裝問題
