1 hadoop-最全最完整的保姆級的java大資料學習資料
- 1.1 大資料簡介
  - 1.1.1 大資料的定義
  - 1.1.2 大資料的特點
  - 1.1.3 大資料的應用場景
  - 1.1.4 大資料的發展趨勢及職業路線
    - 1.4.4.1 大資料發展趨勢
    - 1.4.4.2 大資料職業發展路線

1 hadoop-最全最完整的保姆級的java大資料學習資料

大資料技術解決的是什么問題？
大資料技術解決的主要是海量資料的存盤和計算，
Hadoop的廣義和狹義之分
狹義的Hadoop:指的是一個框架，Hadoop是由三部分組成：HDFS：分布式檔案系統--> 存盤； MapReduce:分布式離線計算框架-->計算；Yarn:資源調度框架
廣義的Hadoop:廣義Hadoop是不僅僅包含Hadoop框架，除了Hadoop框架之外還有一些輔助框架，Flume：日志資料采集,Sqoop：關系型資料庫資料的采集；
Hive:深度依賴Hadoop框架完成計算（sql），Hbase:大資料領域的資料庫（mysql）
Sqoop：資料的匯出
廣義Hadoop指的是一個生態圈，

主要學習內容

第一部分：大資料簡介(定義，特點，應用場景，發展趨勢，職業發展路線)
第二部分：Hadoop簡介(歷史，發展路線-版本變更，發行版(CDH))
第三部分：Hadoop的重要組成(hdfs,mapreduce,yarn)
第四部分：Apache Hadoop 完全分布式集群搭建
第五部分：HDFS 分布式檔案系統(架構，原理，常用api, 元資料管理，權限，日志采集的綜合案例)
第六部分：MapReduce分布式計算框架 (原理，常用的編程規范等，大量案例練習-磁區，排序-快排-歸并排序，壓縮，自定義組件，綜合案例)
第七部分：Yarn 資源調度框架(架構，原理，三種資源調度策略)
第八部分：Apche Hadoop核心原始碼剖析(nn，dn啟動流程原始碼分析，nn高并發的支撐原理， hadoop3.0新特性)
第九部分：調優及二次開發示例(hdfs,mr,yarn調優，nn常見GC問題，完成二次開發編譯原始碼)

1.1 大資料簡介

1.1.1 大資料的定義

? 大資料是指無法在一定時間范圍內用常規軟體工具進行捕捉、管理和處理的資料集合，是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產，

1.1.2 大資料的特點

大資料的特點可以用 IBM 曾經提出的 “5V” 來描述，如下：

在這里插入圖片描述

大量

采集、存盤和計算的資料量都非常大，

計算機存盤單位一般用B，KB，MB，GB，TB，PB，EB，ZB，YB，BB、NB、DB來表示，它們之間的關系是
1GB = 1024 MB
1TB = 1024 GB
1PB = 1024 TB
1EB = 1024 PB
1ZB = 1024 EB
1YB = 1024 ZB
1BB = 1024 YB
1NB = 1024 BB
1DB = 1024 NB

以PB為例，PB級資料量有多大？是怎樣的一個概念？

假如手機播放MP3的速度為平均每分鐘1MB，而1首歌曲的平均時長為4分鐘，那么1PB存量的歌曲可以連續播放2000年，

1PB 也相當于50%的全美學術研究圖書館藏書咨詢內容，

（1）1986年，全球只有0.02EB也就是約21000TB的資料量
（2）2007年，全球就是280EB也就是約300000000TB的資料量，翻了14000倍
（3）近些年，由于移動互聯網及物聯網的出現，各種終端設備的接入，各種業務形式的普及，平均每40個月，全球的資料量就會翻倍！2012年，每天會產生2.5EB的資料量
（4）基于IDC的報告預測，從2013年到2020年，全球資料量會從4.4ZB猛增到44ZB！而到了 2025年，全球會有163ZB的資料量！

全球的資料量已經大到爆了！而傳統的關系型資料庫根本處理不了如此海量的資料！
高速

在大資料時代，資料的創建、存盤、分析都要求被高速處理，比如電商網站的個性化推薦盡可能要求實時完成推薦，這也是大資料區別于傳統資料挖掘的顯著特征，
多樣

資料形式和來源多樣化，包括結構化、半結構化和非結構化資料，具體表現為網路日志、音頻、視頻、圖片、地理位置資訊等等，多型別的資料對資料的處理能力提出了更高的要求，
真實

確保資料的真實性，才能保證資料分析的正確性
低價值

資料價值密度相對較低，或者說是浪里淘沙卻又彌足珍貴，互聯網發展催生了大量資料，資訊海量，但價值密度較低，如何結合業務邏輯并通過強大的機器演算法來挖掘資料價值，是大資料時代最需要解決的問題，也是一個有難度的課題，

1.1.3 大資料的應用場景

隨著大資料的發展，大資料技術已經廣泛應用在眾多行業，比如倉儲物流、電商零售、汽車、電信、生物醫學、人工智能、智慧城市等等領域，包括在疫情防控戰中，大資料技術也發揮了重要的作用，

倉儲物流
大資料技術驅動了倉儲物流領域的智能化發展，以蘇寧為例，蘇寧物流可在全國的各級倉庫間實作智能分倉、就近備貨和預測式調撥，實作”客戶需要的商品就在離客戶最近的配送中心“，

在這里插入圖片描述

電商零售
- 零售業 ” 啤酒+紙尿褲 “ 案例

在這里插入圖片描述

個性推薦
” 雙11購物節 “ 實時銷售額大屏
汽車

利用了大資料和物聯網技術的無人駕駛汽車，在不遠的未來將走入我們的日常生活

在這里插入圖片描述

電信
移動聯通根據用戶年齡、職業、消費情況，分析統計哪種套餐適合哪類人群，對市場人群精準定制，

在這里插入圖片描述

生物醫學

大資料可以幫助我們實作流行病預測、智慧醫療、健康管理，同時還可以幫助我們解讀DNA，了解更多的生命奧秘，比如影像大資料支撐下的早期肺癌支撐平臺，基于大量病例資料樣本，制定早期肺癌高危人群預警指標，
人工智能

在這里插入圖片描述

智慧城市

大資料有效支撐智慧城市發展，成為城市的”資料大腦“，比如，在智慧城市建設上，杭州始終走在全國前列，如覆寫面廣的移動支付、新穎的在線醫療模式、創新的物流運輸模式，都受到較大關注，2016年，杭州被《中國新型智慧城市》白皮書評為“中國最智慧的城市”，

在這里插入圖片描述

大資料的價值，遠遠不止于此，大資料對各行各業的滲透，大大推動了社會生產和生活，未來必將產生重大而深遠的影響，

1.1.4 大資料的發展趨勢及職業路線

1.4.4.1 大資料發展趨勢

2015年黨的十八屆五中全會提出“實施國家大資料戰略”，國務院印發《促進大資料發展行動綱要》，大資料技術和應用處于創新突破期，國內市場需求處于爆發期，我國大資料產業面臨重要的發展機遇
2017年十九大報告明確 "推動互聯網、大資料、人工智能和物體經濟深度融合"
2020年全國政協十三屆三次會議新聞發布會上，更進一步強調：大資料、人工智能、5G是引領未來發展的戰略性技術

顯然，發展大資料是我國的戰略性決策，前景自然不言而喻
2017年北京大學、中國人民大學、北京郵電大學等25所高校成功申請開設大資料課程
大資料屬于高新技術，大牛少，升職競爭小
2020年5月6日，人力資源和社會保障部發布《新職業—大資料工程技術人員就業景氣現狀分析報告》，報告顯示：預計2020年中國大資料行業人才需求規模將達210萬，2025年前大資料人才需求仍將保持30%~40%的增速，需求總量在2000萬人左右
在北京大資料開發工程師的平均薪水已經超越 1.5w 直逼2w，而且目前還保持強勁的發展勢頭

1.4.4.2 大資料職業發展路線

? 目前大資料高、中、低三個檔次的人才都很缺，現在我們談大資料，就像當年談電商一樣，未來前景已經很明確，接下來就是優勝劣汰，競爭上崗，不想當架構師的程式員不是好架構師！但是，大資料發展到現階段，涉及大資料相關的職業崗位也越來越精細，

? 從職業發展來看，由大資料開發、挖掘、演算法、到架構，從級別來看，從工程師、高級工程師，再到架構師，甚至到科學家，而且，契合不同的行業領域，又有專屬于這些行業的崗位衍生，如涉及金融領域的資料分析師等，大資料的相關作業崗位有很多，有資料分析師、資料挖掘工程師、大資料開發工程師、大資料產品經理、可視化工程師、爬蟲工程師、大資料運營經理、大資料架構師、資料科學家等等，

? 從事崗位：ETL工程師，資料倉庫工程師，實時流處理工程師，用戶畫像工程師，資料挖掘，演算法工程師，推薦系統工程，

轉載請註明出處，本文鏈接：https://www.uj5u.com/shujuku/539087.html

標籤：其他

上一篇：mysql 基礎知識

下一篇：京東零售大資料云原生平臺化實踐

1.1 大資料簡介-hadoop-最全最完整的保姆級的java大資料學習資料

1 hadoop-最全最完整的保姆級的java大資料學習資料

1.1 大資料簡介

1.1.1 大資料的定義

1.1.2 大資料的特點

1.1.3 大資料的應用場景

1.1.4 大資料的發展趨勢及職業路線

1.4.4.1 大資料發展趨勢

1.4.4.2 大資料職業發展路線