二跳鄰居數:對大部分社交關系來說,只獲得一跳的度分布遠遠不夠,另一個重要的指標是二跳鄰居數。例如,無秘App中好友的好友的秘密,傳播范圍更廣,資訊量更豐富。因此,二跳鄰居數的統計是圖譜體檢中很重要的一個指標。對于二跳鄰居的計算,GraphX沒有給出現成的介面,需要自己設計和開發。目前使用的方法是:第一次遍歷,所有點向鄰居點傳播一個帶自身ID,生命值為2的訊息;第二次遍歷,所有點將收到的訊息向鄰居點再轉發一次,生命值為1;最終統計所有點上,接收到的生命值為1的ID,并進行分組匯總,得到所有點的二跳鄰居。
值得注意的是,進行這個計算之前,需要借助度分布將圖中的超級節點去掉,不納入二跳鄰居數的計算。否則,這些超級節點會在第一輪傳播后收到過多的訊息而爆掉,同時它們參與計算,會影響與它們有一跳鄰居關系的頂點,導致不能得到真正有效的二跳鄰居數。
本人剛接觸Spark,想多看一些實體,希望各位前輩指教。
uj5u.com熱心網友回復:
試試使用自帶的方法,應該可以改成兩跳的:http://blog.csdn.net/xubo245/article/details/51308337轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/80045.html
標籤:Spark
上一篇:spark的一個初級問題
