sparkStreaming程式中有兩個資料源分別來自兩個不同的topic,兩個topic中通過id進行join。但是資料可能存在不在同一個 batch的現象,第二個topic比第一個的數來的早點 或者晚點 或者壓根不一塊來,應該怎么解決。
uj5u.com熱心網友回復:
用redis快取,將第一個topic中沒有匹配到的資料存到redis,然后每個batch去讀redis,如果匹配到就將該條資料刪掉。uj5u.com熱心網友回復:
這種場景做成離線的處理是不是更合適,先將資料落地uj5u.com熱心網友回復:
本來就是離線處理的。現在想著做成實時的呢
uj5u.com熱心網友回復:
資料量太大了。一個批次上百萬條
uj5u.com熱心網友回復:
使用hbase來做存盤,但是會影響效率,貼主最后怎么操作的呢?轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/10944.html
標籤:Spark
上一篇:請教unity的matcap問題,為什么要把光照等資訊投影到一個半球面上?
下一篇:如何做好顧客標簽精準化
