分享一個大牛的人工智能教程,零基礎!通俗易懂!風趣幽默!希望你也加入到人工智能的隊伍中來!請輕擊http://www.captainbed.net
把大檔案通過哈希函式分配到機器,或者通過哈希函式把大檔案拆成小檔案,一直進行這種劃分,直到劃分的結果滿足資源限制的要求,首先,你要詢問在資源上的限制有哪些,包括記憶體、計算時間等要求,在明確了限制要求之后,可以將每條URL通過哈希函式分配到若干機器或者拆分成若干小檔案,這里的“若干”由具體的資源限制來計算出精確的數量,
例如,將100億位元組的大檔案通過哈希函式分配到100臺機器上,然后每一臺機器分別統計分給自己的URL中是否有重復的URL,同時哈希函式的性質決定了同一條URL不可能分給不同的機器;或者在單機上將大檔案通過哈希函式拆成1000個小檔案,對每一個小檔案再利用哈希表遍歷,找出重復的URL;或者在分給機器或拆完檔案之后,進行排序,排序過后再看是否有重復的URL出現,總之,牢記一點,很多大資料問題都離不開分流,要么是哈希函式把大檔案的內容分配給不同的機器,要么是哈希函式把大檔案拆成小檔案,然后處理每一個小數量的集合,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/423176.html
標籤:其他
上一篇:【大資料面經系列】大資料開發(實時計算方向)面試題(一)
下一篇:招推薦演算法工程師
