在sparkstreaming中,使用kafka的directstream介面獲取資料時,不會將offset更新到zookeeper,這樣會導致job重啟后只能從最新的offset讀取,從而造成資料丟失,為了避免這個情況,官網提示說可以自己實作將offset手動更新到zookeeper,我使用的是python,但是spark的python介面中并無java和scala中的kafkacluster這個類,不知道自己手動該如何實作,網上有很多scala和java實作這個操作的代碼,求高手給一個python版本的,在線等,跪求!!!!小弟編程能力有限,跪求高手耐心解答,抱拳。
uj5u.com熱心網友回復:
自己頂一下,求大神轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/72726.html
標籤:Spark
上一篇:docker swarm 1.12 servie create 以及 overlay network相關問題
下一篇:spark反序列化有時時間過長
