主頁 > 後端開發 > 大資料技術原理與應用【知識點總結】

大資料技術原理與應用【知識點總結】

2020-11-07 05:57:32 後端開發

大資料技術原理與應用

思維導圖

第一章 大資料概述

1、三次資訊化浪潮

資訊化浪潮發生時間標志解決的問題代表企業
第一次浪潮1980年前后個人計算機資訊處理Intel、AMD、IBM
第二次浪潮1995年前后互聯網資訊傳輸雅虎、谷歌、阿里巴巴
第三次浪潮2010年前后物聯網、云計算和大資料資訊爆炸亞馬遜、谷歌、阿里云

注:資訊化浪潮每15年一次,

2、資訊科技為大資料時代提供技術支持

  1. 存盤設備容量不斷增加

    存盤單位:bit、Byte、KB、MB、GB、TB、PB、EB(ZB、YB、BB、NB、DB)

  2. CPU處理能力大幅提升

  3. 網路帶寬不斷增加

3、大資料的特點(5個)

  1. 資料量大(Volume)
  2. 資料型別繁多(Variety)
  3. 處理速度快(Velocity)
  4. 價值密度低(Value)
  5. 真實性(Veracity)

4、大資料的影響

1、大資料對科學研究的影響

人類自古以來在科學研究上先后經歷了實驗、理論、計算和資料四種范式:

  1. 第一種范式:實驗科學
  2. 第二種范式:理論科學
  3. 第三種范式:計算科學
  4. 第四種范式:資料密集型科學

2、大資料對思維方式的影響

  1. 全樣而非抽樣
  2. 效率而非精確
  3. 相關而非因果

5、大資料關鍵技術

  • 資料采集與預處理
  • 資料存盤和管理
  • 資料處理與分析
  • 資料安全和隱私保護

6、大資料計算模式

大資料計算模式解決問題代表產品
批處理計算針對大規模資料的批量處理MapReduce、Spark等
流計算針對流資料的實時計算Strom、Stream、銀河流資料處理平臺等
圖計算針對大規模圖結構資料的處理Pregel、GraphX、PowerGraph等
查詢分析計算大規模資料的存盤管理和查詢分析Dremel、Hive等

7、云計算

1、概念

通過網路提供可伸縮的、廉價的分布式計算能力

2、云計算的關鍵技術

  1. 虛擬化:云計算基礎架構的基石
  2. 分布式存盤
  3. 分布式計算
  4. 多租戶

8、物聯網

1、概念

物物相連的互聯網

從技術架構上來看,物聯網可分為四層:感知層、網路層、處理層和應用層

2、物聯網關鍵技術

  1. 識別和感知技術(二維碼、RFID、傳感器等)
  2. 網路與通信技術
  3. 資料挖掘與融合技術

9、大資料與云計算、物聯網的關系

在這里插入圖片描述

  • 區別:大資料側重于海量資料的存盤、處理與分析,從海量資料中發現價值,服務于生產和生活;云計算本質上旨在整合和優化各種IT資源,并通過網路以服務的方式廉價地提供給用戶;物聯網的發展目標是實作物物相連,應用創新是物聯網發展的核心,
  • 聯系:大資料、云計算和物聯網三者相輔相成,大資料根植于云計算,大資料分析的很多技術都來自于云計算,云計算的分布式資料存盤和管理系統提供了海量資料的存盤和管理能力,分布式并行處理框架MapReduce提供了海量資料的分析能力;大資料為云計算提供了“用武之地”;物聯網的傳感器源源不斷產生的大量資料,構成了大資料的重要來源,同時物聯網需要借助于云計算和大資料技術,實作物聯網大資料的存盤、分析和處理,

第二章 大資料處理框架Hadoop

1、Hadoop簡介

Hadoop是一個開源分布式計算平臺

Hadoop的核心包括:HDFS(前身:NDFS)和MapReduce,

2、Hadoop的特性

  • 高可靠性
  • 高效性
  • 高擴展性
  • 高容錯性
  • 成本低
  • 運行在Linux平臺上
  • 支持多種編程語言

第三章 分布式檔案系統HDFS

1、HDFS含義

Hadoop分布式檔案系統,是GFS的開源實作

2、DFS含義

分布式檔案系統(DFS)是一種通過網路實作檔案在多臺主機上進行分布式存盤的檔案系統

3、分布式檔案系統的結構

  • 主節點(Master Node):名稱節點(NameNode)
  • 從節點(Slave Node):資料節點(DataNode)

在這里插入圖片描述

4、分布式檔案系統的設計需求

分布式檔案系統的設計目標主要包括:透明性、并發控制、可伸縮性、容錯以及安全需求等,

5、HDFS特性

1、目標

  1. 兼容廉價的硬體設備
  2. 流資料讀寫
  3. 大資料集
  4. 簡單的檔案模型
  5. 強大的跨平臺兼容性

2、局限性

  1. 不適合低延遲資料訪問
  2. 無法高效存盤大量小檔案
  3. 不支持多用戶寫入及任意修改檔案

6、HDFS相關概念

1、塊

以資料塊為單位進行存盤(1.0默認64MB)

**目的:**最小化尋址開銷

好處:

  1. 支持大規模檔案存盤
  2. 簡化系統設計
  3. 適合資料備份

2、名稱節點和資料節點

名稱節點的核心資料結構:FsImage和EditLog,

NameNodeDataNode
存盤元資料存盤檔案內容
元資料存在記憶體檔案內容保存在磁盤
保存檔案Block于DataNode間的映射關系維護Block與DataNode本地檔案的映射關系

3、第二名稱節點

作用:

  1. Edit log與FsImage的合并操作
  2. 作為名稱節點的“檢查點”(冷備份)

7、HDFS體系結構

1、HDFS命名空間管理

HDFS的命名空間包含目錄、檔案和塊,

HDFS集群中只有一個命名空間,并且只有唯一一個名稱節點,

2、通信協議

  • 構建在TCP/IP協議基礎之上
  • 使用客戶端協議與名稱節點進行互動
  • 名稱節點和資料節點之間使用資料節點協議進行互動
  • 客戶端與資料節點的互動通過RPC實作

3、局限性

  1. 命名空間的限制
  2. 性能的瓶頸
  3. 隔離問題
  4. 集群的可用性

8、HDFS的存盤原理

資料的冗余存盤、資料存取策略、資料錯誤與恢復

1、資料的冗余存盤

優點:

  1. 加快資料傳輸速度
  2. 容易檢查資料錯誤
  3. 保證資料的可靠性

2、資料存取策略

1、資料存放

冗余因子默認為3,

**內部請求:**第一個副本放置在寫操作請求的資料節點上;

**外部請求:**挑一個不太忙的資料節點,第二個副本放置在不同于第一個副本的機架的資料節點上,第三個副本放置在第一個副本的機架的其他資料節點上,

2、資料讀取

當發現某個資料塊副本對應的機架ID與客戶端對應的ID一樣時,優先選擇該副本,否則就隨機,

3、資料復制

采用流水線復制的策略(4KB)

3、資料錯誤與恢復

9、HDFS常用命令

  • hadoop fs -get
  • hadoop fs -put

第四章 分布式資料庫HBase

1、HBase含義

Hadoop DataBase(HBase)是針對谷歌BigTable的開源實作,

2、HBase與傳統關系資料庫的對比分析

關系資料庫HBase
資料型別具有豐富的資料型別和存盤方式未經解釋的字串
資料操作豐富的操作不存在復雜的表與表之間的關系
存盤模式基于行模式存盤基于列存盤
資料索引可以構建復雜的多個索引只有一個索引——行鍵
資料維護更新操作會用最新的當前值去替代舊值生成一個新的版本,舊有版本依然保留
可伸縮性很難實作橫向擴展,縱向擴展空間有限可實作靈活的水平擴展

3、HBase資料模型

1、相關概念

HBase是一個稀疏、多維、持久化存盤的映射表,它采用行鍵、列族、列限定符和時間戳進行索引,

2、資料坐標

“四維坐標”:[行鍵,列族,列限定符,時間戳]

4、HBase實作原理

1、HBase的功能組件

  • 庫函式
  • 一個Master主服務器
  • 許多個Region服務器

2、Region的定位

Region識別符號:“表名+開始主鍵、RegionID”

5、HBase運行機制

1、HBase系統架構

在這里插入圖片描述

2、Region服務器的作業原理

每個Region物件又是由多個Store組成的,每個Store對應了表中的一個列族的存盤,

每個Store又包含了一個MemStore和若干個StoreFile,

6、HBase常用Shell命令

  • create:創建表
  • list:列出HBase中所有的表資訊
  • put:向表、行、列指定的單元格添加資料
  • get:通過指定表名、行、列、時間戳、時間范圍和版本號來獲得相應單元格的值
  • scan:瀏覽表的相關資訊

第五章 NoSQL資料庫

1、NoSQL簡介

1、含義

Not Only SQL

2、特點

  1. 靈活的可擴展性
  2. 靈活的資料模型
  3. 與云計算緊密融合

2、NoSQL的四大型別

型別代表
鍵值資料庫Redis、Memcached
列族資料庫Cassandra、HBase
檔案資料庫MongoDB
圖資料庫Neo4j

3、NoSQL的三大基石

1、CAP

  • C(Consistency):一致性
  • A(Availability):可用性
  • P(Tolerance of Network Partition):磁區容忍性

CAP理論最多同時滿足三個中的兩個,

  1. CA,強調一致性(C)和可用性(A),放棄磁區容忍性(P),

    eg:傳統的關系資料庫(MySQL、SQL Server等),

  2. CP,強調一致性(C)和磁區容忍性(P),放棄可用性(A),

    eg:Neo4j、BigTable和HBase等,

  3. AP,強調可用性(A)和磁區容忍性(P),放棄一致性(C),

    eg:Cassandra、Dynamo等,

2、BASE

BASE

  • BA(Basically Available):基本可用
  • S(Soft-state):軟狀態
  • E(Eventual consistency):最終一致性

ACID:一個資料庫事務具有ACID四性

  • A(Atomicity):原子性
  • C(Consistency):一致性
  • I(Isolation):隔離性
  • D(Durability):持久性

4、三個資料庫陣營

  • OldSQL(傳統關系資料庫)
  • NoSQL
  • NewSQL

第六章 云資料庫

1、云資料庫概念

云資料庫是部署和虛擬化在云計算環境中的資料庫,

2、云資料庫的特性

  1. 動態可擴展
  2. 高可用性
  3. 較低的使用代價
  4. 易用性
  5. 高性能
  6. 免維護
  7. 安全

第七章 MapReduce

1、MapReduce簡介

MapReduce是一種分布式并行編程框架,以Map和Reduce為核心函式,

MapReduce的設計理念:計算向資料靠攏,

Map函式和Reduce函式都以<key,value>作為輸入,

2、MapReduce的作業流程

第八章 Hadoop再探討

1、針對Hadoop的改進與提升

組件1.0的問題2.0的改進
HDFS單一名稱節點,存在單點失效問題設計了HDFS HA,提供名稱節點熱備份機制
HDFS第一命名空間,無法實作資源隔離設計了HDFS聯邦,管理多個命名空間
MapReduce資源管理效率低設計理新的資源管理框架YARN

2、HDFS 2.0的新特性

1、HDFS HA

2、HDFS聯邦

優勢:

  1. HDFS集群可擴展性
  2. 性能更高效
  3. 良好的隔離性

3、新一代資源管理調度框架YARN

1、YARN體系結構

YARN體系結構包含了三個組件:

  1. ResourceManager
  2. ApplicationMaster
  3. NodeManager

2、YARN的發展目標

YARN的目標就是實作“一個集群多個框架”,即在一個集群上部署一個統一的資源調度管理框架YARN,在YARN之上可以部署其他各種計算框架,

3、Hadoop生態系統中具有代表性的功能組件

1、Pig

提供了類似SQL的Pig Latin語言,

Pig會自動把用戶撰寫的腳本轉換成MapReduce作業在Hadoop集群上運行,

2、Tez

Tez是Apache開源的支持DAG作業的計算框架,

核心思想:將Map和Reduce兩個操作進一步拆分,

3、Kafka

一種分布式發表訂閱訊息系統,

滿足在線實時處理和批量離線處理,

第九章 Spark

1、Spark簡介

Spark是基于記憶體計算的大資料并行計算框架,

特點:

  1. 運行速度快
  2. 容易使用
  3. 通用性
  4. 運行模式多樣

2、Scala簡介

Scala是一門多范式編程語言,面向函式編程,

3、Spark運行架構

1、基本概念

  1. RDD:彈性分布式資料集
  2. DAG:有向無環圖

2、RDD

**概念:**分布式物件集合,

依賴關系:

  • 窄依賴:一個父RDD的磁區對應于一個子RDD的磁區,或多個父RDD的磁區對應于一個子RDD的磁區;
  • 寬依賴:存在一個父RDD的一個磁區對應于一個子RDD的多個磁區,

第十章 流計算

1、流計算概述

1、流計算概念

流計算即針對流資料的實時計算,

2、批量處理和實時處理

在這里插入圖片描述

2、流計算的處理流程

  • 資料實時采集
  • 資料實時計算
  • 實時查詢服務

3、開源流計算框架Storm

Storm的設計思想:

  1. Streams

    流資料(Streams)是一個無限的Tuple序列,

  2. Spouts

    Spouts是Stream的源頭,會從外部讀取流資料并持續發出Tuple,

  3. Bolts

    Bolts既可以處理Tuple,也可以將處理后的Tuple作為新的Streams發給其他Bolts,

  4. Topology

    Spouts和Bolts組成的網路,

  5. Stream Groupings

    用于告知Topology如何在兩個組件間進行Tuple的傳送,

4、Spark Streaming

Spark Streaming與Storm的對比

Spark Streaming無法實作毫秒級的流計算,而Storm則可以實作毫秒級回應,

第十一章 圖計算

1、圖計算概述

**含義:**對圖結構的計算,

**BSP模型:**整體同步并行計算模型,又名“大同步模型”,

一次BSP計算程序包括一系列全域超步(超步就是指計算中的一次迭代),每個超步包括3個組件:

  1. 區域計算
  2. 通信
  3. 柵欄同步

2、Pregel簡介

Pregel是一種基于BSP模型實作的并行圖處理系統,

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/205167.html

標籤:python

上一篇:一份可以收割螞蟻、位元組、小米大廠offer的PDF檔案!

下一篇:不能讀入,請大佬分析一下

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 【C++】Microsoft C++、C 和匯編程式檔案

    ......

    uj5u.com 2020-09-10 00:57:23 more
  • 例外宣告

    相比于斷言適用于排除邏輯上不可能存在的狀態,例外通常是用于邏輯上可能發生的錯誤。 例外宣告 Item 1:當函式不可能拋出例外或不能接受拋出例外時,使用noexcept 理由 如果不打算拋出例外的話,程式就會認為無法處理這種錯誤,并且應當盡早終止,如此可以有效地阻止例外的傳播與擴散。 示例 //不可 ......

    uj5u.com 2020-09-10 00:57:27 more
  • Codeforces 1400E Clear the Multiset(貪心 + 分治)

    鏈接:https://codeforces.com/problemset/problem/1400/E 來源:Codeforces 思路:給你一個陣列,現在你可以進行兩種操作,操作1:將一段沒有 0 的區間進行減一的操作,操作2:將 i 位置上的元素歸零。最終問:將這個陣列的全部元素歸零后操作的最少 ......

    uj5u.com 2020-09-10 00:57:30 more
  • UVA11610 【Reverse Prime】

    本人看到此題沒有翻譯,就附帶了一個自己的翻譯版本 思考 這一題,它的第一個要求是找出所有 $7$ 位反向質數及其質因數的個數。 我們應該需要質數篩篩選1~$10^{7}$的所有數,這里就不慢慢介紹了。但是,重讀題,我們突然發現反向質數都是 $7$ 位,而將它反過來后的數字卻是 $6$ 位數,這就說明 ......

    uj5u.com 2020-09-10 00:57:36 more
  • 統計區間素數數量

    1 #pragma GCC optimize(2) 2 #include <bits/stdc++.h> 3 using namespace std; 4 bool isprime[1000000010]; 5 vector<int> prime; 6 inline int getlist(int ......

    uj5u.com 2020-09-10 00:57:47 more
  • C/C++編程筆記:C++中的 const 變數詳解,教你正確認識const用法

    1、C中的const 1、區域const變數存放在堆疊區中,會分配記憶體(也就是說可以通過地址間接修改變數的值)。測驗代碼如下: 運行結果: 2、全域const變數存放在只讀資料段(不能通過地址修改,會發生寫入錯誤), 默認為外部聯編,可以給其他源檔案使用(需要用extern關鍵字修飾) 運行結果: ......

    uj5u.com 2020-09-10 00:58:04 more
  • 【C++犯錯記錄】VS2019 MFC添加資源不懂如何修改資源宏ID

    1. 首先在資源視圖中,添加資源 2. 點擊新添加的資源,復制自動生成的ID 3. 在解決方案資源管理器中找到Resource.h檔案,編輯,使用整個專案搜索和替換的方式快速替換 宏宣告 4. Ctrl+Shift+F 全域搜索,點擊查找全部,然后逐個替換 5. 為什么使用搜索替換而不使用屬性視窗直 ......

    uj5u.com 2020-09-10 00:59:11 more
  • 【C++犯錯記錄】VS2019 MFC不懂的批量添加資源

    1. 打開資源頭檔案Resource.h,在其中預先定義好宏 ID(不清楚其實ID值應該設定多少,可以先新建一個相同的資源項,再在這個資源的ID值的基礎上遞增即可) 2. 在資源視圖中選中專案資源,按F7編輯資源檔案,按 ID 型別 相對路徑的形式添加 資源。(別忘了先把檔案拷貝到專案中的res檔案 ......

    uj5u.com 2020-09-10 01:00:19 more
  • C/C++編程筆記:關于C++的參考型別,專供新手入門使用

    今天要講的是C++中我最喜歡的一個用法——參考,也叫別名。 參考就是給一個變數名取一個變數名,方便我們間接地使用這個變數。我們可以給一個變數創建N個參考,這N + 1個變數共享了同一塊記憶體區域。(參考型別的變數會占用記憶體空間,占用的記憶體空間的大小和指標型別的大小是相同的。雖然參考是一個物件的別名,但 ......

    uj5u.com 2020-09-10 01:00:22 more
  • 【C/C++編程筆記】從頭開始學習C ++:初學者完整指南

    眾所周知,C ++的學習曲線陡峭,但是花時間學習這種語言將為您的職業帶來奇跡,并使您與其他開發人員區分開。您會更輕松地學習新語言,形成真正的解決問題的技能,并在編程的基礎上打下堅實的基礎。 C ++將幫助您養成良好的編程習慣(即清晰一致的編碼風格,在撰寫代碼時注釋代碼,并限制類內部的可見性),并且由 ......

    uj5u.com 2020-09-10 01:00:41 more
最新发布
  • Rust中的智能指標:Box<T> Rc<T> Arc<T> Cell<T> RefCell<T> Weak

    Rust中的智能指標是什么 智能指標(smart pointers)是一類資料結構,是擁有資料所有權和額外功能的指標。是指標的進一步發展 指標(pointer)是一個包含記憶體地址的變數的通用概念。這個地址參考,或 ” 指向”(points at)一些其 他資料 。參考以 & 符號為標志并借用了他們所 ......

    uj5u.com 2023-04-20 07:24:10 more
  • Java的值傳遞和參考傳遞

    值傳遞不會改變本身,參考傳遞(如果傳遞的值需要實體化到堆里)如果發生修改了會改變本身。 1.基本資料型別都是值傳遞 package com.example.basic; public class Test { public static void main(String[] args) { int ......

    uj5u.com 2023-04-20 07:24:04 more
  • [2]SpinalHDL教程——Scala簡單入門

    第一個 Scala 程式 shell里面輸入 $ scala scala> 1 + 1 res0: Int = 2 scala> println("Hello World!") Hello World! 檔案形式 object HelloWorld { /* 這是我的第一個 Scala 程式 * 以 ......

    uj5u.com 2023-04-20 07:23:58 more
  • 理解函式指標和回呼函式

    理解 函式指標 指向函式的指標。比如: 理解函式指標的偽代碼 void (*p)(int type, char *data); // 定義一個函式指標p void func(int type, char *data); // 宣告一個函式func p = func; // 將指標p指向函式func ......

    uj5u.com 2023-04-20 07:23:52 more
  • Django筆記二十五之資料庫函式之日期函式

    本文首發于公眾號:Hunter后端 原文鏈接:Django筆記二十五之資料庫函式之日期函式 日期函式主要介紹兩個大類,Extract() 和 Trunc() Extract() 函式作用是提取日期,比如我們可以提取一個日期欄位的年份,月份,日等資料 Trunc() 的作用則是截取,比如 2022-0 ......

    uj5u.com 2023-04-20 07:23:45 more
  • 一天吃透JVM面試八股文

    什么是JVM? JVM,全稱Java Virtual Machine(Java虛擬機),是通過在實際的計算機上仿真模擬各種計算機功能來實作的。由一套位元組碼指令集、一組暫存器、一個堆疊、一個垃圾回收堆和一個存盤方法域等組成。JVM屏蔽了與作業系統平臺相關的資訊,使得Java程式只需要生成在Java虛擬機 ......

    uj5u.com 2023-04-20 07:23:31 more
  • 使用Java接入小程式訂閱訊息!

    更新完微信服務號的模板訊息之后,我又趕緊把微信小程式的訂閱訊息給實作了!之前我一直以為微信小程式也是要企業才能申請,沒想到小程式個人就能申請。 訊息推送平臺🔥推送下發【郵件】【短信】【微信服務號】【微信小程式】【企業微信】【釘釘】等訊息型別。 https://gitee.com/zhongfuch ......

    uj5u.com 2023-04-20 07:22:59 more
  • java -- 緩沖流、轉換流、序列化流

    緩沖流 緩沖流, 也叫高效流, 按照資料型別分類: 位元組緩沖流:BufferedInputStream,BufferedOutputStream 字符緩沖流:BufferedReader,BufferedWriter 緩沖流的基本原理,是在創建流物件時,會創建一個內置的默認大小的緩沖區陣列,通過緩沖 ......

    uj5u.com 2023-04-20 07:22:49 more
  • Java-SpringBoot-Range請求頭設定實作視頻分段傳輸

    老實說,人太懶了,現在基本都不喜歡寫筆記了,但是網上有關Range請求頭的文章都太水了 下面是抄的一段StackOverflow的代碼...自己大修改過的,寫的注釋挺全的,應該直接看得懂,就不解釋了 寫的不好...只是希望能給視頻網站開發的新手一點點幫助吧. 業務場景:視頻分段傳輸、視頻多段傳輸(理 ......

    uj5u.com 2023-04-20 07:22:42 more
  • Windows 10開發教程_編程入門自學教程_菜鳥教程-免費教程分享

    教程簡介 Windows 10開發入門教程 - 從簡單的步驟了解Windows 10開發,從基本到高級概念,包括簡介,UWP,第一個應用程式,商店,XAML控制元件,資料系結,XAML性能,自適應設計,自適應UI,自適應代碼,檔案管理,SQLite資料庫,應用程式到應用程式通信,應用程式本地化,應用程式 ......

    uj5u.com 2023-04-20 07:22:35 more