我們用kafka流式計算常見的架構就是kafka--spark-steaming(on yarn)--DB
我們在提交spark任務時,一般類似這樣的配置(基于pyspark):
spark-submit --class org.apache.spark.examples.XXXX\
--master yarn \
--num-executors 4 \
--driver-memory 2g \
--executor-memory 3g \
--executor-cores 4 \
....
我的問題是當啟動這個job取消費一個topic的時候,是啟動了一個drive負責接收資料然后發送給4個executors去執行map&reduce?還是4個executors或并發去kafka不同的patition獲取資料,然后各自在執行map&reduce呢??
謝謝
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/67569.html
標籤:Spark
