Google三大論文的簡述及其分析:
首先我們應該知曉這一些事情,在這樣一個大資料時代,資料時常達到了爆炸增長的地步。如果我們在設計計算機系統時還在使用以前的理論假設:1.組距失效是一個意外事件 2.以通常的標準衡量采用管理數億個 KB 大小的小檔案的方式 3.絕大部分檔案的修改是采用覆寫原有資料的方式 .因此Google此時為了解決這些問題,開啟了一個Hadoop的先河——即Google的三大產品:Google FS,MapReduce,BigTable。而我們通過對這三大論文的讀取,可以知道這幾個點,Google FS 是整個系統的核心概念,而Google FS 的設計理念為
1.系統由許多廉價的普通組件組成,組件失效是一種常態。所以我們需要系統中有一個leader來持續監控自身的狀態,迅速地偵測、冗余并恢復失效的組件,并且在自己毀壞時通過民族選舉來選擇另外一個leader來來繼續監控其他機器。
2.系統存盤一定數量的大檔案。我們預期會有幾百萬檔案,檔案的大小通常在 100MB 或者以上。所以我們要讓系統能夠被有效的管理。并且系統也必須支持小檔案,但是不需要針對小檔案做專門的優化,因為在大資料時代人們不會對所有的資料進行查看,故我們只需要管理大量資料,卻不需要大量的優化資料。
3.系統的作業負載主要由兩種讀操作組成:大規模的流式讀取和小規模的隨機讀取。大規模的流式讀取通常一次讀取數百 KB 的資料,更常見的是一次讀取 1MB 甚至更多的資料。來自同一個客戶機的連續操作通常是讀取同一個檔案中連續的一個區域。小規模的隨機讀取通常是在檔案某個隨機的位置讀取幾個 KB 資料。(實話來講,我不是學計算機的,這部分我看都沒看懂,不知道怎么編了,所以就簡單的抄了一下Google論文)。
然后就是MapReduce指導的一種新的大資料計算方法,“分布式計算方法”。我如果從純計算機理論的地方還是不懂,那么反正我就從我的專業金融角度來思考一些區塊鏈的給金融帶來的變革吧。區塊鏈在現在最廣泛的應用不得不提一下位元幣,位元幣也是一種虛擬貨幣,但它和其他的虛擬貨幣(如Q幣)卻有著很大的不同。1.位元幣的總量固定不變為21000個,2.位元幣通過區塊鏈解決了分布式記賬和驗證的方法(即區塊鏈以去中心化的方式解決了信用問題)。而區塊鏈的這一優點(去中心化)也因此可以顛覆金融學的兩大基礎基石時間與信用中的信用這一概念,因為去中心化,許多金融中介機構賴以生存的資訊不平等優勢將被去掉。但是長路漫漫,這種理想的狀態必然不會到達,就算通過去中心化解決了資料不對等問題,可是大機構還是可以利用大資料的技術從海量的資料中提取到比我們普通人更好的資料,這個社會是人的社會,人有著自己的主觀能動性去不斷加大自己和他人的差距而不是等著新技術的到來坐以待斃(講實話,我寫到后面發現我在其他地方了解的分布式計算和Google論文中的分布式計算好像不是同一個東西,Google的分布式計算是指一個資料要分開與世界各地來備份,在計算機需要的時候又提取的一種計算方法從而稱做分布式計算,但我實在不知道咋寫,老師說用金融業的知識來深度研究,所以就偏題湊字數了。。。。。)
然后最后一點BigTable我更是不懂....好像是一個分布式的結構化資料存盤系統,它被設計用來處理海量資料:通常是分布在數千臺普通服務器上的 PB 級的資料。Bigtable也實作了下面的幾個目標:適用性廣泛、可擴展、高性能和高可用性。。。(不懂不懂,就把論文抄了一下)
uj5u.com熱心網友回復:
學習了,以前沒接觸過。uj5u.com熱心網友回復:
感謝樓主的分享呢uj5u.com熱心網友回復:
樓主我是本科會計專業的!但是跨考計算機轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/37645.html
標籤:華為云計算
上一篇:glance同步資料庫時
下一篇:啟動spark-shell出現<console>:10: error: not found: value sqlContext的錯誤
