Google 大資料演算法基礎
GFS
進入資訊爆炸時代人們可獲得資料高速增長,像傳統的增加硬碟個數不僅不能滿足資料存盤,容量速度而且增加成本等造成一系列問題。可擴展的分布式檔案系統可以很好的解決存盤問題,也改變了資料的存盤的管理方式,它采用客戶機-服務器模式通過計算機節點相連存盤的一種方式。通過檔案分割后用冗余的方式來進行存盤即重復配置某些部件來減少因部件問題出現的故障,提高了可靠性。主要的方式由一個master 存于記憶體中,它可以簡化系統結果提高其性能但由于只有一個,可能成為單點故障難以突破。用于啟動薦取是由多個chunkserver,用來提高master 性能吞吐量。計算機網路第一個節點是linux 計算機,它是一種可靠免費安全穩定多平臺的作業系統運行用戶級別的服務器。GFS優于其他的存盤方式在于在廉價的商用機器集群系統,降低成本并且具有可靠性。
MapReduce
采用大資料的分布式計算方式來處理和產生大規模劇集,lisp 采用以map為影射reduce 為規約,Map操作是可以高度并行的,這對高性能要求的應用以及并行計算領域的需求非常有用。它也極大的方便了一些編程人員將程式運行分布式系統不會用分布式并行編程map影射多個worker 在進行不同操作后合并。reduce是用來保證所有映射的鍵值對中的每一個共享相同的鍵值。MapReduce通過把對資料集的大規模操作分發給網路上的每個節點實作可靠性,對資料記得大規模操作分發網路每個節點,主要功能是1)資料劃分和計算任務調度 2)資料/代碼互定位 3)系統優化 4)出錯檢測和恢復
BigTable
BigTable是Google設計的分布式資料存盤系統,用來處理海量的資料的一種非關系型的資料庫。是大型有容錯和自治特性的系統 構建于GFS和mapreduce之上,讓分布式的結構化資料存盤處理海量資料PB級資料 效率極高 易于擴展,支持動態伸縮 并且適用于廉價設備具有通用性 適合于讀操作,不適合寫操作 不適用于傳統關系型資料庫。其采用主服務器和分服務器的方式將Tablet分配到Tablet服務器、檢測新增和過期的Tablet服務器、平衡Tablet服務器之間的負載、GFS垃圾檔案的回收、資料模式的改變,獲得很好的負載均衡
uj5u.com熱心網友回復:
感覺很厲害的樣子轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/37612.html
標籤:云存儲
上一篇:醫療知識圖譜價值分析
