初學spark,有個疑問,如下:
一直認為分布式計算框架比較適合做一些統計型別的計算,而在用一些機器學習演算法建模時,如果資料集分布在多個節點上,現在想使用這些資料訓練模型,那么spark內部是如何運行的呢?是(1)分別基于各個節點上的資料訓練模型,還是(2)將資料匯集后再訓練模型?
如果是方式(1),那這樣訓練出多個模型,這和使用完成資料集訓練出的模型不一致;如果是方式(2),那么spark內部是如何執行這些操作的呢?還請大神指導
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/32387.html
標籤:Spark
上一篇:虛擬化
