準備用將mysql中的資料(20個實體,150個db左右)實時同步至KUDU,采用方案:
canal ->kafka -> sparkstreaming +sparksql ->kudu
目前topic設定為一個實體一個topic,同一topic的 batch interval中會存在跨db及table的JSON,需要逐條用sparksql解釋后呼叫kudu sink保存,
想要逐條解釋json串,就需要用的嵌套RDD,但是嵌套RDD好像不支持,群友們有碰到沒?怎么處理,
uj5u.com熱心網友回復:
你好,spark在決議的時候,可以自己推斷資料的schema資訊(當然這可能會和你的預期不一致)。
故想要逐條解釋json串,無需嵌套RDD
如解決了請采納,如仍然未能解決,請私信我。
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/14819.html
標籤:分布式計算/Hadoop
上一篇:maccms10自動播放下一集
下一篇:Kafka消費資料問題
