作為gfs的論文,必然是對已有功能的總結,對未足部分的改進,對欠缺功能的探索。而其實用性與適用性也是其論文好壞的重要判斷表準。
在不看論文前,檔案本身、并發、資料一致性、容錯,機器掛掉、磁盤損壞、系統錯誤、單點故障、并發下可能產生資料overlap是必須考慮的事情。
而這篇文章著重從容錯、可伸縮性、資料儲存、集群儲存上來進行討論、禪述 。
容錯:組件失效是設計GFS時遇到的最大挑戰之一。但機器的穩定性和硬碟的可靠性也并不能給予絕對的保障。但組件失效所帶來的后果及影響往往是致命性的,直接導致系統無法運作,因此GFS自帶工具診斷系統故障。GFS診斷工具是通過保存各日志事件來重演進行追蹤分析。但對于GFS診斷工具具體運作是否會占大量空間容量還需進一步討論。
可伸縮性:什么是可伸縮性?簡而言之就是做更多的事情,此論文通過設想單一的Master節點來在沒有任何代價情況下,避免客戶端和Master節點可能發生的通訊、選擇Chunk尺寸64MB降低了作業負載、減少了網路負載減少了Master 節點所需要保存元資料的數量等等來增加了gfs的可伸縮性。但同時也存在著惰性空間分配的問題。而這篇論文也很好的提出了設想:允許客戶端從其他客戶端讀取資料,然而允許客戶端從其他客戶端讀取資料是否會造成已隱私問題又將會是一個面臨的巨大挑戰。
資料儲存:元資料是資料的資料,而在master服務器中原資料保存在記憶體中,使得master的服務器操作速度非常快,盡管會存在 chunk等數量,以及整個系統的承載能力,都受限與master服務器所擁有的記憶體大小的問題。但總體而言,利將大于弊,在其中所提出的操作日志是記錄元資料、檔案、chunk的永久標識,哪怕在master服務器損壞后可重演,通過操作日志恢復。在儲存的安全持久方面就重要作用。而GFS一致性保障機制則保障了資料的準確性,并且通過chunk服務器獨立維護checksum來校驗自己保存資料是否損壞。
谷歌檔案系統展示了一個使用普通硬體支持大規模資料處理的系統的特質 。其設計對網路協議堆疊的優化,將會提升當前對每個客戶端的寫入吞吐量限制。大資料將會有無限潛能。
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/65388.html
標籤:其他數據庫
上一篇:mysql禁用system
