例如,我有多個日期日志檔案“20100101,20100102....20220222”
我有 mapper.py。此腳本會決議日志檔案并將映射資料發送到資料庫。
在這種情況下,我想做我的映射器(可能是 10 個實體)獲取日志并將其發送到資料庫。然后在另一個日期重復這項作業
uj5u.com熱心網友回復:
Hadoop Streaming 已經是“分布式的”,但被隔離為一個輸入和輸出流。您需要撰寫一個腳本來回圈檔案并為每個檔案運行單獨的流式傳輸作業。
如果你想批量處理許多檔案,那么你應該將所有檔案上傳到一個 HDFS 檔案夾,然后你可以使用mrjob(假設你真的想要 MapReduce),或者你可以切換到pyspark并行處理它們,因為我沒有看到需要按順序進行。
轉載請註明出處,本文鏈接:https://www.uj5u.com/gongcheng/432826.html
