現在我有很多個任務,比如說每隔十秒統計最近一天的資料,其中根據不同維度,不同條件有很多種統計方式,但是每個任務其實需要的資料都是一樣的,就是最近一天的資料(不是自然天,是當前時間前24小時的資料),假如把資料都放到每個任務的記憶體里就浪費空間了,以后增加任務也還是會有問題,所以有沒有一個共享的空間可以讀呢?讓所有任務都讀同一塊共享的資料,
我有一個疑問可以在sparkstreaming里直接讀mongodb的資料嗎?
uj5u.com熱心網友回復:
如果你的集群本身能讓那么多作業同時跑的話,你可以把作業的處理方法封裝成類,然后每個作業開啟一條執行緒,每個執行緒執行各自的處理類。然后開啟dynamicAllocation。那就在一個應用里同時執行多個作業了轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/66000.html
標籤:Spark
