(1)大資料和應用場景介紹

(2)大資料技術綜述總結

(3)Hadoop原理和應用背景介紹

1.技術發展綜述

(1)兩大重要事件

大資料技術發展的基礎：03和04年Google開源了GFS以及MapReduce這兩篇論文，其中， GFS (Google File System)提供了相對于傳統存盤方案，更加高效、海量的一種 資料存盤方案分布式檔案系統， MapReduce是對于海量資料的高效的 分布式計算框架，
大資料落地標志：之后Doug Cutting基于這這兩篇文論通過Java做了開源實作， GFS對應于開源的HDFS，MapReduce名稱不變，HDFS、MapReduce構成了Hadoop，并且，在2008年年初Hadoop正式成為了Apache基金會的頂級專案，自此開始Hadoop在各大公司及領域迅猛推廣，

(2)Hadoop體系成熟

代表性Hadoop商業公司：如2008年Cloudera公司推出了 CDH發行版，在其平臺上將各個主流技術做了整合等，
Hadoop體系成熟：Hadoop擴大促進了——① 易用性方面SQL框架的支持Hive、② 高可用性NameNode HA、③資源擴展性管理Yarn等方面，但是隨著時間推移Hadoop也暴露出不足之處——④如MapReduce在性能、以及像迭代計算等方面不足，所以 Spark推出了記憶體計算的思路，2014年代替MapReduce成為運行于Hadoop之上的核心專案，
星環大資料平臺，區別于CDH，開源整合+自主研發，例如：

1. 底層引擎方面選擇了Spark ，而非MapReduce ；

2.開發介面上， 提供一套豐富的SQL介面，而非Java、Python、Scala等方式，

3.在專案遷移、開發成本、專案管控等上邊優勢顯而易見；

4.除基本資料分析外，對于像智能演算法研發，可以以 插件的方式方便的整合在平臺上穩定運行，

(3)以星環科技為代表介紹商業化大資料平臺（給老東家打波廣告）

大資料技術體系最核心部分包含 有資料采集、存盤、資源管理、計算引擎、資料分析等內容，其中紅色標識的為星環自主研發的企業級核心技術產品、其他為開源技術，此外，資料源型別多種多樣，例如：電商、社交網路、智能硬體等等，資料可視化（展示）部分也支持多種技術，例如：Echarts、D3、Cboard等，

2.大資料體系代表性開源產品

(1)HDFS (Hadoop Distributed Filesystem)

它主要由HDFS以及MapReduce來構成，最初在設計HDFS時主 要背景是傳統的磁帶、或者磁盤介質存盤以及讀寫的性能都非常差，單獨一塊盤的容量、性能都非常差、所以迫切希望分布式方案去解決， 分布式需要解決問題如下：

錯誤檢測和快速自動恢復： 分布式方案可以選擇多臺低配的服務器，而不是單臺超高配的服務器，但低配設備故障概率可能會提高，如何有一個好的錯誤檢測以及快速恢復機制，顯得很重要，否則資料丟失是一件非常嚴重的問題；
實時訪問 ：檔案系統的存盤只是一方面，還要解決 保證資料快速的、流式的高效訪問；
可擴展性：單臺服務器磁盤接滿后無法擴容，HDFS分布式框架必須提供更靈活的擴容方案；
一致性模型： 一次寫入、多次讀寫；以及對于資料分析這方面， 移動計算比移動資料更便宜（這就是后來的計算向資料靠攏理論），

（關于移動計算VS移動資料：移動資料涉及磁盤、網路IO的開銷，資料量大之后開銷會非常大，但是計算任務的移動開銷就非常少， 如何做到資料存放結點直接計算而不去直接拷貝資料給計算的服務器是個需要考慮的問題，例如Mysql掃表1000W行資料不到1s，而通過jdbc發送則要1分鐘左右）

現在HDFS給出了解決方案：

高可靠性以及容錯性：有副本策略以及故障檢測的機制提供(見后)，保證構建在低成本的服務器上，以及在Hadoop 2.X之后提出的高可用機制，都是HDFS高可靠性以及容錯性的體現，
可擴展性：在可靠性及容錯性保證下，HDFS集群的構建成本可以非常低，在比較廉價的商用機器上運行完全沒有問題，結點個數也非常之多， 10K節點規模沒有問題，集群規模如此之大，資料量支持也沒有問題PB級別完全可以應對，
并發性：支持高并發的訪問，批量讀取資料，關注資料吞吐量， 對于批處理的支持非常好（如MapReduce分布式批處理計算框架）

(2)MapReduce（兩大核心設計理念）

①何為分布式，分而治之？

在HDFS當中可以理解為：例如 10TB資料存盤在一個N臺服務器組件的集群中，并不是像以前直接將10TB資料存盤在一臺服務器上，而是 將這10TB資料split切分之后，將不同的檔案片段及備份均勻的放在N臺服務器上，這就是簡單的一個分布式存盤，存盤的分布式，也帶了計算的分布式實作，例如在計算這10TB資料時， 可以在N臺服務器同時、并發的進行計算，

②第二、移動計算，而非移動資料，

移動計算如上： 第一臺服務器上的資料就應該由第一臺服務器來完成計算，如果他去計算其他服務器資料、或者他上邊的資料交給其他服務器去做計算，那么這樣子相當于整個計算程序中我要都添加一個資料由第一臺移動到另外一臺的環境，涉及到資料的移動，那么網路以及磁盤IO等等開銷會額外增加很多，所以MapReduce第二個核心思想，移動計算、而非移動資料， 即資料存在哪個結點，則有哪個結點完成上面資料的計算，

(3)Yarn

在Hadoop2.x的架構中才單獨開發，主要負責計算框架運算程序中的 資源管理和作業調度作業， Yarn在 1.x的Hadoop中， 其實是在MapReduce內置實作的，2.x才單獨抽取出來，

這樣獨立出來最大的好處是：

兼容性好：1.x中 除MapReduce以外的計算框架要對于HDFS資料進行分析時， 都需要自身單獨實作資源底層的一系列管理，但是推出Yarn之后第三方如，Spark就不需要再去實作資源管理，整合得簡單不如1.x繁雜，
高可擴展性：提供了高可用的支持，并且作為分布式組件也同樣具有高擴展性，

(4)Spark

特點如下：

記憶體計算：MapReduce計算時有很多 記憶體磁盤互動浪費資源，但Spark計算時， 資料全部在記憶體中完成、不同結點若需要資料，則全部通過網路傳輸來走(相當于記憶體和網路異步操作，避免了某些磁盤IO阻塞場景)，這樣很大程度上提高了計算的效率， Spark實作中將記憶體抽象為RDD介質，
基于DAG優化任務流程，
易于部署，豐富API支持，
通用易用性，Spark針對不同的場景都有針對性的組件，不管是批處理、流處理、互動式計算還是機器學習、圖計算，都可以使用Spark來完成，并且Spark提供的 各種RDD算子以及Scala提供的 鏈式編程等，使得Spark也具有良好的易用性，
多種運行模式，包括 Local( 在本地運行，只有一個作業行程，無并行計算能力 )、Standalone(類似于HDFS/Yarn集群模式，也分master和slave主從模式)、YARN( 客戶端直接連接Yarn,無需構建spark集群 )、Mesos ( 客戶端直接連接Mesos無需構建spark集群 ) ，

(5)Hive

Hive構建在Hadoop/HBase之上的資料倉庫，用于分析 結構化海量資料，注意： Hive本身定義是資料倉庫而非資料庫， 雖然他提供了SQL，但主要是借助于這種SQL方式對于平臺之上的資料做更加簡單有效的分析，

【資料倉庫VS資料庫區別】

主要區別可理解 為資料庫一般存盤資料主要用來提供業務系統使用、 大部分資料都為在線資料，而資料倉庫的設計主要是為了分析、大部分資料皆為歷史資料， Hive做分析，可以對于HDFS、HBase上的資料進行分析， 但Hive本質并不執行分析、他本質僅僅只是將SQL陳述句轉換為MapReduce程式，真正執行分析還是在Hadoop基礎之上來進行!!!

【Hive的特點】

提供SQL查詢語言 ；
針對海量資料的高性能查詢和分析系統；
用戶介面豐富： cli( 控制命令列介面 )、Beeline、jdbc都支持；
提供靈活的擴展性，支持復雜型別資料、自定義UDF支持、腳本等，

【Hive應用場景】

1. 日志分析：日志分析可以優化作業系統，獲知用戶行為，也可以獲知資料的統計資訊；

2. 資料挖掘：通過結構化資料的挖掘，能夠獲得原先使用者沒有意識的資訊；

3. 檔案索引：可以對一系列檔案進行分析，并形成檔案的索引結構， 不一定是完整的排序表，也可能是關聯資訊的索引；

4. 商業智能資訊處理：可以對商業資訊進行查詢分析，從中可以獲得一些只能決策的資訊；

5. 及時查詢以及資料驗證：資料分析人員可能臨時需要驗證資料的特性，需要查詢引擎迅速進行資料分析，

(6)HBase

HBase和Hadoop一樣基于Google(bigtable)開源論文實作， HBase是一個分布式的、面向列的開源資料庫，分布式資料庫，也是一個非關系型資料庫，采用HDFS作為檔案存盤系統，

HBase分布式資料庫意味著也一種集群方式、并且支持動態擴容等等特點，非常善于海量資料存盤，

【行式與列式資料庫主要區別】

HBase 本質是一個列式資料庫，區別于我們平時開發所使用的MySQL、DB2、Oracle等，這些都是資料庫，舉例說明：大家作業中肯定會對人員資訊設計表去存盤其資訊，當需求確定之后將表設計號之后，假如：像以上兩條人員資訊，張三只具有姓名、年齡兩個欄位的值，李四則具有年齡、性別、身高這三個欄位的值，像地址、愛好這些欄位都沒有資料錄入，這種情況在我們開發當中經常會遇到， 實際在行式資料庫雖然某些欄位為空，但也是會浪費一定的存盤空間，我們最直接的想法如果要節省這部分存盤空間，如果張三只有年齡欄位、那么可以只存年齡欄位，也就是說根據具體每行資料、欄位可以動態來添加，但是 對于行式資料庫來說、一旦表結構定義好之后，如果要修改所有行都會受影響，而HBase使用程序中，建表時并不需要指定具體表中欄位或者列名，而是當用戶寫入資料時，根據實際情況動態來添加，這樣對比行式資料庫可以很大程度上節省存盤空間，

【HBase特點】

高性能：海量資料存盤查詢性能肯定不是問題；
可擴展，分布式集群、動態擴容也不會有問題；
高可用，HBase架構本身有高可用機制支持、并且用到的檔案系統為HDFS、HDFS本身容錯能力就非常之好，

(7) ElasticSearch

ElasticSearch是基于 Lucene實作的開源分布式全文檢索引擎，作為一個分布式全文檢索引擎，ES具有較強的擴展性，并且能處理PB級別以上的大資料集，是大資料領域首選的分布式搜索引擎，

【全文檢索VS精確查找】

例如平時我們在SQL開發程序中where colum like %% 或者=這些情況是精確查找， 全文檢索，首先會根據提供的內容進行分詞、然后再根據分詞結果去查找，例如：資料集如下：搜索“北京618”，精確查找只能找到的第三條，但是全文搜索三條都可以查找的到（或者利用NLP預訓練模型Bert編碼文本向量，Elasticsearch計算文本相似性搜索），全文檢索相關，Lucene、Solr等，其中Solr對比起ElasticSearch來說，建立索引時搜索效率會有影響，對于實時搜索引擎來說效率并不好，Solr對于傳統的專案來說支持還可以，但并不適用與海量資料實時檢索，

3.大資料產品分布

以星環科技為例，一些商業化大資料產品總是以平臺形式進行集成設計，

如圖所示， 資料中心作為最底層作業系統層支持， 目前主要是以Docker、Kubernates等容器化技術為核心的云計算平臺； 中間層為核心的企業級大資料平臺，著名的有星環自主研發的大資料平臺TDH、Cloudera的商用發行版CDH等等；大資料 上層一般為資料分析以及人工智能平臺，例如：星環人工智能平臺Sophon，

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/295112.html

標籤：其他

上一篇：34.Hue中創建Ssh的Oozie作業流

下一篇：Spark的RDD序列化