我正在處理一個pdf檔案重復資料洗掉專案并分析了python中的許多庫,這些庫讀取檔案,然后生成它的哈希值,然后將其與下一個檔案進行比較以進行復制-類似于下面的邏輯或使用python filecomp lib。但是我發現這些邏輯的問題是,如果 pdf 是從源 DOCX(Save to PDF) 生成的,那么這些輸出不會被視為重復 - 即使內容完全相同。為什么會發生這種情況?是否有任何其他邏輯來讀取內容,然后根據實際內容創建唯一的哈希值。
def calculate_hash_val(path, blocks=65536):
file = open(path, 'rb')
hasher = hashlib.md5()
data = file.read()
while len(data) > 0:
hasher.update(data)
data = file.read()
file.close()
return hasher.hexdigest()
uj5u.com熱心網友回復:
發生的一件事是您將元資料保存到檔案中,包括創建時間。它在 PDF 中是不可見的,但這會使散列不同。
以下是有關如何使用至少一種工具查找和洗掉該資料的說明。我相信還有很多其他人。
轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/522074.html
下一篇:WP_Query獲取其他表列值
