我希望在 AWS S3 存盤桶中的多個 pdf 中搜索兩個單詞。但是,我不想在本地機器上下載這些檔案,而是如果搜索部分可以通過 URL 直接在這些 pdf 上運行。請注意,這些 PDF 位于存盤桶內的多個子目錄中(例如 year 檔案夾,然后是月份檔案夾,然后是 date )。
uj5u.com熱心網友回復:
Amazon S3 沒有“搜索”功能。它是一種“簡單的存盤服務”。
您需要將這些檔案下載到某種形式的計算平臺(例如 EC2、Lambda 或您自己的計算機)并執行搜索,或者您可以使用Amazon OpenSearch Service等服務對檔案進行預索引,然后發送查詢到搜索服務。
uj5u.com熱心網友回復:
運行 PDF 的直接掃描以搜索 S3 存盤桶中的文本是困難的:
- 一些 PDF 包含嵌入在影像中的文本(它們以文本形式不可讀)
- 如果您想下載 PDF 而不保存它,請考慮使用記憶體優化的機器,不要將檔案存盤在虛擬機的硬碟驅動器中,而是使用記憶體中的流。
- 為了繞過影像中的文本,您需要使用 OCR 邏輯,這也很難執行。您可能希望使用 AWS Textract 或 Google Vision 進行 OCR。如果合規性和安全性是一個問題,您可以使用 Tesseract。
- 如果無論如何您有可靠的 OCR 解決方案,我建議在上傳事件發生后運行文本提取作業,這將為您節省大量資金來支付您將使用的任何 OCR 服務,它還將啟用您的組織在 AWS OpenSearch等搜索友好型服務中以文本格式快取 pdf 的內容
轉載請註明出處,本文鏈接:https://www.uj5u.com/gongcheng/422510.html
標籤:
下一篇:無法創建s3會話
