
本文主要從技術層面探討大資料目前的現狀以及面臨的挑戰,在此之前,如果你對大資料的概念還比較模糊,可閱讀什么是大資料一文了解,
如何定義大資料
目前我們已經了解到,大資料是由于資料量的巨大增長而產生的,所以,“大資料”一詞主要描述的是規模巨大的混合資料集,這種資料集是結構化與非結構化資料的融合,
通常,大資料的特征是通過3V來解釋的,即體積、速度和多樣性,
體積是大資料的第一大特征,所有領先的社交媒體網站都在不停地產生大量的資料,以太位元組/千位元組為單位,
第二個是速度,它通常指的是接收資料和處理資料的速度,當前,互聯網上每天接收的資料約為2.5億兆位元組,
第三個是多樣性,它主要指的是收集資料的來源比較多樣,以及資料的結構、類別也比較多樣,我們常見的文本、視頻、影像是不同類別的一些型別,
除此之外,大資料其他流行的特征是準確性、價值和可變性,
大資料的類別

大資料通常被分為三個不同的類別:結構化、半結構化和非結構化,
結構化:結構化并非指的是容易接受、存盤和處理的資料,而是預先知道其格式的資料,譬如說保存在資料庫中的特定表的值,
非結構化:任何來源不確定且未格式化的資料都是非結構化資料,在這里,資料有不同的獨立來源,資料集包括了文字、視頻和音頻記錄等等,我們最常見的例子是谷歌、百度等搜索引擎門戶顯示的所有搜索結果,
半結構化:顧名思義,它指的是結構化和非結構化資料的聚合,這是一個已定義好格式的資料,但沒有存盤在任何關系資料庫系統當中,譬如說保存在XML檔案中的一種資料就是半結構化資料,
用什么管理大資料
用什么管理如此規模的大資料,一直是個很大的難點,目前最常用的高效管理大量資料的開源計算引擎是Hadoop,它是Apache基金會所開發的分布式系統基礎架構,
Hadoop由HDFS (Hadoop分布式檔案系統)和MapReduce Engine兩個主要組件組成,
Hadoop的生態系統則分為了3個部分:
Hadoop Common: Apache基礎的一些公用的庫,可以被生態系統中的其他組件使用,
HDFS (Hadoop Distributed File System):一個分布式資料存盤系統,它以更高效的方式存盤所有資料塊,并采用跨不同集群的資料復制概念,以實作可靠和輕松的資料訪問,
它主要由兩個組件組成:名稱節點(NameNode)和資料節點(DataNode),它采用了主-從原理,其中名稱節點是主節點,負責整個分布式檔案系統的元資料(MetaData)的管理,Data節點作為從節點,負責檔案資料的存盤和讀寫操作,
MapReduce(分布式并行計算框架):MapReduce是一個分布式的資源調度和離線并行計算框架,是處理所有資料集的地方,
MapReduce將大資料集分解成更小的資料集,采用分而治之的策略,以便更高效地處理它們,
它的基本作業機制是,使用“Map”方法將任務發送到Hadoop集群中的不同節點進行處理,“Reduce”方法將所有處理結果合并起來,保證資料最終的整體有效性,
大資料技術面臨的挑戰

資料存盤:由于資料的規模在短時間內迅速增加,資料存盤和分析整理依然是最核心的難點,
資料提煉:這是整個程序中最繁瑣的任務,也是最大的挑戰,分析提煉如此大量的資料是一項艱難的任務,從大量資料中提煉出最有價值的部分,是一個更艱難的任務,這甚至影響到了大資料未來的發展,
網路安全風險:大資料還會帶來額外的安全漏洞風險,目前來看,擁有如此龐大資料的公司正成為網路犯罪的主要目標,
原文鏈接:http://pythonjishu.com/status-quo-and-challenges/轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/536065.html
標籤:其他
