第十一章大資料技術與實踐-有解無憂

1.大資料的4V特征
1）Volume(資料量大):大資料的首要特征是資料體量巨大。
2）Variety(資料型別多):大資料的挑戰不僅在于資料量大，也體現在資料型別的多樣化。
3）Velocity(處理速度快):資訊的價值在于及時，超過特定時限的資訊就失去了使用的價值。
4）Value(價值高):大資料商業價值高，但是價值密度低。

2.大資料存盤平臺

HDFS
1）簡介
Hbase是一個高可靠性、高性能、面向列、可伸縮、實時讀寫的分布式資料庫。依托Hadoop-HDFS作為其檔案存盤系統，利用MapReduce來處理海量資料，用Zookeeper作為其分布式協同服務，主要用來存盤非結構化和半結構化的松散資料（列存 NoSQL 資料庫）。
Hadoop分布式檔案系統(HDFS)是指被設計成適合運行在通用硬體(commodity hardware)上的分布式檔案系統（Distributed File System）。它和現有的分布式檔案系統有很多共同點。但同時，它和其他的分布式檔案系統的區別也是很明顯的。HDFS是一個高度容錯性的系統，適合部署在廉價的機器上。HDFS能提供高吞吐量的資料訪問，非常適合大規模資料集上的應用。HDFS放寬了一部分POSIX約束，來實作流式讀取檔案系統資料的目的。HDFS在最開始是作為Apache Nutch搜索引擎專案的基礎架構而開發的。HDFS是Apache Hadoop Core專案的一部分。
HDFS有著高容錯性（fault-tolerant）的特點，并且設計用來部署在低廉的（low-cost）硬體上。而且它提供高吞吐量（high throughput）來訪問應用程式的資料，適合那些有著超大資料集（large data set）的應用程式。HDFS放寬了（relax）POSIX的要求（requirements）這樣可以實作流的形式訪問（streaming access）檔案系統中的資料。
2）HDFS體系結構
HDFS采用了主從（Master/Slave）結構模型，一個HDFS集群是由一個NameNode和若干個DataNode組成的。其中NameNode作為主服務器，管理檔案系統的命名空間和客戶端對檔案的訪問操作；集群中的DataNode管理存盤的資料。
3）HDFS副本放置策略
HDFS副本放置策略對HDFS的可靠性和性能至關重要。副本放置策略關系到資料的可靠性、可用性和網路帶寬的利用率。
在讀取檔案時充分利用了各個機架的網路帶寬，做到負載均衡。但這一策略存在以下問題:
1）在寫入時代價過大，需要在不同的機架之間傳輸大量資料。
2）當本地資料副本失效時，從遠程結點上恢復資料需要耗費大量資料傳輸時間。
3）隨機選取存放資料的結點，可能會造成資料存盤的負載均衡。
為此，基于結點網路距離與資料負載均衡來選擇最佳的遠程機架資料副本的放置結點，它既能實作資料存放的負載均衡，又能實作良好的資料傳輸性能。

HBase
1）簡介
HBase是一個分布式的、面向列的開源資料庫，該技術來源于 Fay Chang 所撰寫的Google論文“Bigtable：一個結構化資料的分布式存盤系統”。就像Bigtable利用了Google檔案系統（File System）所提供的分布式資料存盤一樣，HBase在Hadoop之上提供了類似于Bigtable的能力。HBase是Apache的Hadoop專案的子專案。HBase不同于一般的關系資料庫，它是一個適合于非結構化資料存盤的資料庫。另一個不同的是HBase基于列的而不是基于行的模式。
2）特性
HBase特性包括:線性和模塊化的可擴展性；嚴格的讀寫一致；自動且可配置的資料表分片機制；RegionServer之間可以進行熱備份切換；為MapReduce操作HBase資料表提供Java基礎類；易用的Java客戶端訪問API；支持實時查詢的資料塊快取和模糊過濾；提供Thrift網管和TEST-ful Web服務，并支持XML、Protobuf和二進制編碼；可擴展的Jrubyshell；支持通過Hadoop
檢測子系統或JMX匯出檢測資料到檔案、Ganglia集群檢測系統。
3）體系架構
從物理結構上講，HBase由三種型別的服務器構成主從式架構。Region Servers為資料的讀取和寫入提供服務。當訪問資料時，客戶端直接和Region Servers通信。Region的分配，DDL (create, delete tables)操作有HBase Master行程處理。Zookeeper是HDFS的一部分，維護著一個活動的集群。
Hadoop DataNode 存盤著Region Server所管理的資料。所有的HBase資料存盤在HDFS的檔案中。Region Server和HDfs DataNode并置在一起，這使得RegionServers所服務的資料具有資料區域性（使資料接近需要的位置）。HBase資料在寫入時是本地資料，但是當Region移動時，在壓實之前它不是本地資料。
NameNode維護構成檔案的所有物理資料塊的元資料資訊。
4）資料模型
單元格（cell）
（1）cell由行和列的坐標交叉決定；
（2）單元格是有版本的；
（3）cell的內容是未決議的位元組陣列；
（4）cell由{row key， column( =<family> +<qualifier>)， version} 唯一確定的單元。
（5）cell中的資料是沒有型別的，全部是位元組碼形式存貯。
RowKey
（1）決定一行資料，按行檢索資料，相當于一級索引
（2）按照字典順序排序的，說明資料是有序的
（3）只能存盤64k的位元組資料，RowKey越短越好
列族（Column Family）
（1）HBase表中的每個列都歸屬于某個列族，列族必須作為表模式(schema)定義的一部分預先給出。
列名以列族作為前綴，每個“列族”都可以有多個列(column)；新的列族成員（列）可以隨后按需、動態加入；
（2）權限控制、存盤以及調優都是在列族層面進行的；
（3）HBase把同一列族里面的資料存盤在同一目錄下，由幾個檔案保存。
時間戳（Timestamp）
（1）在HBase每個cell存盤單元對同一份資料可以有多個版本，根據唯一的時間戳來區分每個版本之間的差異，不同版本的資料按照時間倒序排序，最新的資料版本排在最前面。
（2）時間戳的型別是 64位整型，一般由HBase(在資料寫入時自動)賦值，此時時間戳是精確到毫秒的當前系統時間。
時間戳也可以由客戶顯式賦值，如果應用程式要避免資料版本沖突，就必須自己生成具有唯一性的時間戳。

Cassandra
1）簡介
Cassandra是一套開源分布式NoSQL資料庫系統。它最初由Facebook開發，用于儲存收件箱等簡單格式資料，集GoogleBigTable的資料模型與Amazon Dynamo的完全分布式的架構于一身Facebook于2008將 Cassandra 開源，此后，由于Cassandra良好的可擴展性，被Digg、Twitter等知名Web 2.0網站所采納，成為了一種流行的分布式結構化資料存盤方案。
Cassandra是一個混合型的非關系的資料庫，類似于Google的BigTable。其主要功能比Dynamo （分布式的Key-Value存盤系統）更豐富，但支持度卻不如檔案存盤MongoDB（介于關系資料庫和非關系資料庫之間的開源產品，是非關系資料庫當中功能最豐富，最像關系資料庫的。支持的資料結構非常松散，是類似json的bjson格式，因此可以存盤比較復雜的資料型別）。Cassandra最初由Facebook開發，后轉變成了開源專案。它是一個網路社交云計算方面理想的資料庫。以Amazon專有的完全分布式的Dynamo為基礎，結合了Google BigTable基于列族（Column Family）的資料模型。P2P去中心化的存盤。很多方面都可以稱之為Dynamo 2.0。
2）資料模型
Cassandra采取與HBase相似的資料模型，有HNase的列和列族的機制，同時又有自己的超級列和超級列族。
列是資料增量最底層(也就是最小)的部分。它是一個包含名稱(name)、值(value)和時間戳(timestamp)的三重元組。
超級列與列的區別就是，標準列的value是一個位元組陣列，而超級列的value包含多個列，且超級列沒有時間戳，超級列中的各個列的時間戳可以是不同的。
3）磁區策略
Token是用來磁區資料的關鍵，每個結點都有一個獨一無二的Token，表明該結點分配的資料范圍。值是唯一的

Redis
1）簡介
Redis是當前比較熱門的NOSQL系統之一，它是一個開源的使用ANSI c語言撰寫的key-value存盤系統（區別于MySQL的二維表格的形式存盤。）。和Memcache類似，但很大程度補償了Memcache的不足。和Memcache一樣，Redis資料都是快取在計算機記憶體中，不同的是，Memcache只能將資料快取到記憶體中，無法自動定期寫入硬碟，這就表示，一斷電或重啟，記憶體清空，資料丟失。所以Memcache的應用場景適用于快取無需持久化的資料。而Redis不同的是它會周期性的把更新的資料寫入磁盤或者把修改操作寫入追加的記錄檔案，實作資料的持久化。
特點:
Redis讀取的速度是100000次/s，寫的速度是81000次/s
原子。Redis的所有操作都是原子性的，同時Redis還支持對幾個操作全并后的原子性執行。
支持多種資料結構：string（字串）；list（串列）；hash（哈希），set（集合）；zset(有序集合)
持久化，主從復制（集群）
支持過期時間，支持事務，訊息訂閱。
官方不支持window,但是又第三方版本。

MongoDB
1）簡介
MongoDB是一個基于分布式檔案存盤[1]的資料庫。由C++語言撰寫。旨在為WEB應用提供可擴展的高性能資料存盤解決方案。
MongoDB是一個介于關系資料庫和非關系資料庫之間的產品，是非關系資料庫當中功能最豐富，最像關系資料庫的。它支持的數據結構非常松散，是類似json的bson格式，因此可以存盤比較復雜的資料型別。Mongo最大的特點是它支持的查詢語言非常強大，其語法有點類似于面向物件的查詢語言，幾乎可以實作類似關系資料庫單表查詢的絕大部分功能，而且還支持對資料建立索引。
特點:
面向集合存盤，易存盤物件型別的資料。
模式自由。
支持動態查詢。
支持完全索引，包含內部物件。
支持查詢。
支持復制和故障恢復。
使用高效的二進制資料存盤，包括大型物件（如視頻等）。
自動處理碎片，以支持云計算層次的擴展性。
支持 Golang，RUBY，PYTHON，JAVA，C++，PHP，C#等多種語言。
檔案存盤格式為BSON（一種JSON的擴展）。
可通過網路訪問。

3.大資料分析處理平臺
1）Impala
簡介
Impala是由Cloudera公司開發的新型查詢系統，它提供SQL語意，能查詢存盤在Hadoop的HDFS和HBase上的PB級大資料，在性能上比Hive高出3~30倍。
Impala的運行需要依賴于Hive的元資料。Impala是參照 Dremel系統進行設計的。
Impala采用了與商用并行關系資料庫類似的分布式查詢引擎，可以直接與HDFS和HBase進行互動查詢。
Impala和Hive采用相同的SQL語法、ODBC驅動程式和用戶介面。
2）系統架構
Impala和Hive、HDFS、HBase等工具是統一部署在一個Hadoop平臺上的。Impala主要由Impalad，State Store和CLI三部分組成。
（1）Impalad
負責協調客戶端提交的查詢的執行
包含Query Planner、Query Coordinator和Query Exec Engine三個模塊。
與HDFS的資料節點（HDFS DN）運行在同一節點上。
給其他Impalad分配任務以及收集其他Impalad的執行結果進行匯總。
Impalad也會執行其他Impalad給其分配的任務，主要就是對本地HDFS和HBase里的部分資料進行操作。
（2）State Store
會創建一個statestored行程。
負責收集分布在集群中各個Impalad行程的資源資訊，用于查詢調度。
（3）CLI
給用戶提供查詢使用的命令列工具。
還提供了Hue、JDBC及ODBC的使用介面。

HadoopDB 配置集合主從結點
總體架構:作為一個混合系統，HadoopDB主要由HDFS、MapReduce、SMSPlanner、DB Connector等部分構成。HadoopDB的核心框架是Hadoop，包括存盤層HDFS和處理層MapReduce。

4.大資料研究與發展方向
1）資料的不確定性與資料質量
2）跨領域的資料處理方法的可移植性
3）資料處理的時效性保證——記憶體計算
4）流式資料的實時處理
5）大資料應用
6）大資料發展趨勢

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/20570.html

標籤：網絡

上一篇：第十一章大資料技術與實踐

下一篇：kylin2.5.2啟動webUI打不開,日志報錯如下

第十一章 大資料技術與實踐

第十一章大資料技術與實踐