主頁 > 資料庫 > 1.1 大資料簡介-hadoop-最全最完整的保姆級的java大資料學習資料

1.1 大資料簡介-hadoop-最全最完整的保姆級的java大資料學習資料

2022-12-03 07:43:09 資料庫

目錄
  • 1 hadoop-最全最完整的保姆級的java大資料學習資料
    • 1.1 大資料簡介
      • 1.1.1 大資料的定義
      • 1.1.2 大資料的特點
      • 1.1.3 大資料的應用場景
      • 1.1.4 大資料的發展趨勢及職業路線
        • 1.4.4.1 大資料發展趨勢
        • 1.4.4.2 大資料職業發展路線

1 hadoop-最全最完整的保姆級的java大資料學習資料

大資料技術解決的是什么問題?
大資料技術解決的主要是海量資料的存盤和計算,
Hadoop的廣義和狹義之分
狹義的Hadoop:指的是一個框架,Hadoop是由三部分組成:HDFS:分布式檔案系統--> 存盤; MapReduce:分布式離線計算框架-->計算;Yarn:資源調度框架
廣義的Hadoop:廣義Hadoop是不僅僅包含Hadoop框架,除了Hadoop框架之外還有一些輔助框 架,Flume:日志資料采集,Sqoop:關系型資料庫資料的采集;
Hive:深度依賴Hadoop框架完成計算(sql),Hbase:大資料領域的資料庫(mysql)
Sqoop:資料的匯出
廣義Hadoop指的是一個生態圈,

主要學習內容

第一部分:大資料簡介(定義,特點,應用場景,發展趨勢,職業發展路線)
第二部分:Hadoop簡介(歷史,發展路線-版本變更,發行版(CDH))
第三部分:Hadoop的重要組成(hdfs,mapreduce,yarn)
第四部分:Apache Hadoop 完全分布式集群搭建
第五部分:HDFS 分布式檔案系統(架構,原理,常用api, 元資料管理,權限,日志采集的綜合案例)
第六部分:MapReduce分布式計算框架 (原理,常用的編程規范等,大量案例練習-磁區,排序-快 排-歸并排序,壓縮,自定義組件,綜合案例)
第七部分:Yarn 資源調度框架(架構,原理,三種資源調度策略)
第八部分:Apche Hadoop核心原始碼剖析(nn,dn啟動流程原始碼分析,nn高并發的支撐原理, hadoop3.0新特性)
第九部分: 調優及二次開發示例(hdfs,mr,yarn調優,nn常見GC問題,完成二次開發編譯原始碼)

1.1 大資料簡介

1.1.1 大資料的定義

? 大資料是指無法在一定時間范圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處 理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產,

1.1.2 大資料的特點

大資料的特點可以用 IBM 曾經提出的 “5V” 來描述,如下:

在這里插入圖片描述

  • 大量

    采集、存盤和計算的資料量都非常大,

    計算機存盤單位一般用B,KB,MB,GB,TB,PB,EB,ZB,YB,BB、NB、DB來表示, 它們之間的關系是
    1GB = 1024 MB
    1TB = 1024 GB
    1PB = 1024 TB
    1EB = 1024 PB
    1ZB = 1024 EB
    1YB = 1024 ZB
    1BB = 1024 YB
    1NB = 1024 BB
    1DB = 1024 NB

    以PB為例,PB級資料量有多大?是怎樣的一個概念?

    假如手機播放MP3的速度為平均每分鐘1MB,而1首歌曲的平均時長為4分鐘,那么1PB存量的歌曲可以連續播放2000年,

    1PB 也相當于50%的全美學術研究圖書館藏書咨詢內容,

    (1)1986年,全球只有0.02EB也就是約21000TB的資料量
    (2)2007年,全球就是280EB也就是約300000000TB的資料量,翻了14000倍
    (3)近些年,由于移動互聯網及物聯網的出現,各種終端設備的接入,各種業務形式的普 及,平均每40個月,全球的資料量就會翻倍!2012年,每天會產生2.5EB的資料量
    (4)基于IDC的報告預測,從2013年到2020年,全球資料量會從4.4ZB猛增到44ZB!而到了 2025年,全球會有163ZB的資料量!

    全球的資料量已經大到爆了!而傳統的關系型資料庫根本處理不了如此海量的資料!

  • 高速

    在大資料時代,資料的創建、存盤、分析都要求被高速處理,比如電商網站的個性化推薦盡可能要求實時完成推薦,這也是大資料區別于傳統資料挖掘的顯著特征,

  • 多樣

    資料形式和來源多樣化,包括結構化、半結構化和非結構化資料,具體表現為網路日志、音 頻、視頻、圖片、地理位置資訊等等,多型別的資料對資料的處 理能力提出了更高的要求,

  • 真實

    確保資料的真實性,才能保證資料分析的正確性

  • 低價值

    資料價值密度相對較低,或者說是浪里淘沙卻又彌足珍貴,互聯網發展催生了大量資料,資訊海量,但價值密度較低,如何結合業務邏輯并通過強大的機器演算法來挖掘資料價值,是大資料時代最需要解決的問題,也是一個有難度的課題,

1.1.3 大資料的應用場景

隨著大資料的發展,大資料技術已經廣泛應用在眾多行業,比如倉儲物流、電商零售、汽車、電信、生物醫學、人工智能、智慧城市等等領域,包括在疫情防控戰中,大資料技術也發揮了重要的作用,

  • 倉儲物流
    大資料技術驅動了倉儲物流領域的智能化發展,以蘇寧為例,蘇寧物流可在全國的各級倉庫間實作 智能分倉、就近備貨和預測式調撥,實作”客戶需要的商品就在離客戶最近的配送中心“,

在這里插入圖片描述

  • 電商零售

    • 零售業 ” 啤酒+紙尿褲 “ 案例

在這里插入圖片描述

  • 個性推薦
    在這里插入圖片描述

  • ” 雙11購物節 “ 實時銷售額大屏
    在這里插入圖片描述

  • 汽車

    利用了大資料和物聯網技術的無人駕駛汽車,在不遠的未來將走入我們的日常生活

在這里插入圖片描述

  • 電信
    移動聯通根據用戶年齡、職業、消費情況,分析統計哪種套餐適合哪類人群,對市場人群精準定制,

在這里插入圖片描述

  • 生物醫學

    大資料可以幫助我們實作流行病預測、智慧醫療、健康管理,同時還可以幫助我們解讀DNA,了解更多的生命奧秘,比如影像大資料支撐下的早期肺癌支撐平臺,基于大量病例資料樣本,制定早期肺癌高危人群預警指標,
    在這里插入圖片描述

  • 人工智能

在這里插入圖片描述

  • 智慧城市

    大資料有效支撐智慧城市發展,成為城市的”資料大腦“,比如,在智慧城市建設上,杭州始終走在全國前列,如覆寫面廣的移動支付、新穎的在線醫療模式、創新的物流運輸模式,都受到較大關注,2016年,杭州被《中國新型智慧城市》白皮書評為“中國最智慧的城市”,

在這里插入圖片描述

大資料的價值,遠遠不止于此,大資料對各行各業的滲透,大大推動了社會生產和生活,未來必將產生重大而深遠的影響,

1.1.4 大資料的發展趨勢及職業路線

1.4.4.1 大資料發展趨勢

  1. 2015年黨的十八屆五中全會提出“實施國家大資料戰略”,國務院印發《促進大資料發展行動綱要》,大資料技術和應用處于創新突破期,國內市場需求處于爆發期,我國大資料產業面臨重要的發展機遇

  2. 2017年十九大報告明確 "推動互聯網、大資料、人工智能和物體經濟深度融合"

  3. 2020年全國政協十三屆三次會議新聞發布會上,更進一步強調:大資料、人工智能、5G是引領 未來發展的戰略性技術

    顯然,發展大資料是我國的戰略性決策,前景自然不言而喻

  4. 2017年北京大學、中國人民大學、北京郵電大學等25所高校成功申請開設大資料課程

  5. 大資料屬于高新技術,大牛少,升職競爭小

  6. 2020年5月6日,人力資源和社會保障部發布《新職業—大資料工程技術人員就業景氣現狀分析報告》,報告顯示:預計2020年中國大資料行業人才需求規模將達210萬,2025年前大資料人才需求仍將保持30%~40%的增速,需求總量在2000萬人左右

  7. 在北京大資料開發工程師的平均薪水已經超越 1.5w 直逼2w,而且目前還保持強勁的發展勢頭

1.4.4.2 大資料職業發展路線

? 目前大資料高、中、低三個檔次的人才都很缺,現在我們談大資料,就像當年談電商一樣,未來前景已經很明確,接下來就是優勝劣汰,競爭上崗,不想當架構師的程式員不是好架構師!但是,大資料發展到現階段,涉及大資料相關的職業崗位也越來越精細,

? 從職業發展來看,由大資料開發、挖掘、演算法、到架構,從級別來看,從工程師、高級工程師,再到架構師,甚至到科學家,而且,契合不同的行業領域,又有專屬于這些行業的崗位衍生,如涉及金融領域的資料分析師等,大資料的相關作業崗位有很多,有資料分析師、資料挖掘工程師、大資料開發工程師、大資料產品經理、可視化工程師、爬蟲工程師、大資料運營經理、大資料架構師、資料科學家等等,

? 從事崗位:ETL工程師,資料倉庫工程師,實時流處理工程師,用戶畫像工程師,資料挖掘,演算法工程師,推薦系統工程,

轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/539087.html

標籤:其他

上一篇:mysql 基礎知識

下一篇:京東零售大資料云原生平臺化實踐

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • GPU虛擬機創建時間深度優化

    **?桔妹導讀:**GPU虛擬機實體創建速度慢是公有云面臨的普遍問題,由于通常情況下創建虛擬機屬于低頻操作而未引起業界的重視,實際生產中還是存在對GPU實體創建時間有苛刻要求的業務場景。本文將介紹滴滴云在解決該問題時的思路、方法、并展示最終的優化成果。 從公有云服務商那里購買過虛擬主機的資深用戶,一 ......

    uj5u.com 2020-09-10 06:09:13 more
  • 可編程網卡芯片在滴滴云網路的應用實踐

    **?桔妹導讀:**隨著云規模不斷擴大以及業務層面對延遲、帶寬的要求越來越高,采用DPDK 加速網路報文處理的方式在橫向縱向擴展都出現了局限性。可編程芯片成為業界熱點。本文主要講述了可編程網卡芯片在滴滴云網路中的應用實踐,遇到的問題、帶來的收益以及開源社區貢獻。 #1. 資料中心面臨的問題 隨著滴滴 ......

    uj5u.com 2020-09-10 06:10:21 more
  • 滴滴資料通道服務演進之路

    **?桔妹導讀:**滴滴資料通道引擎承載著全公司的資料同步,為下游實時和離線場景提供了必不可少的源資料。隨著任務量的不斷增加,資料通道的整體架構也隨之發生改變。本文介紹了滴滴資料通道的發展歷程,遇到的問題以及今后的規劃。 #1. 背景 資料,對于任何一家互聯網公司來說都是非常重要的資產,公司的大資料 ......

    uj5u.com 2020-09-10 06:11:05 more
  • 滴滴AI Labs斬獲國際機器翻譯大賽中譯英方向世界第三

    **桔妹導讀:**深耕人工智能領域,致力于探索AI讓出行更美好的滴滴AI Labs再次斬獲國際大獎,這次獲獎的專案是什么呢?一起來看看詳細報道吧! 近日,由國際計算語言學協會ACL(The Association for Computational Linguistics)舉辦的世界最具影響力的機器 ......

    uj5u.com 2020-09-10 06:11:29 more
  • MPP (Massively Parallel Processing)大規模并行處理

    1、什么是mpp? MPP (Massively Parallel Processing),即大規模并行處理,在資料庫非共享集群中,每個節點都有獨立的磁盤存盤系統和記憶體系統,業務資料根據資料庫模型和應用特點劃分到各個節點上,每臺資料節點通過專用網路或者商業通用網路互相連接,彼此協同計算,作為整體提供 ......

    uj5u.com 2020-09-10 06:11:41 more
  • 滴滴資料倉庫指標體系建設實踐

    **桔妹導讀:**指標體系是什么?如何使用OSM模型和AARRR模型搭建指標體系?如何統一流程、規范化、工具化管理指標體系?本文會對建設的方法論結合滴滴資料指標體系建設實踐進行解答分析。 #1. 什么是指標體系 ##1.1 指標體系定義 指標體系是將零散單點的具有相互聯系的指標,系統化的組織起來,通 ......

    uj5u.com 2020-09-10 06:12:52 more
  • 單表千萬行資料庫 LIKE 搜索優化手記

    我們經常在資料庫中使用 LIKE 運算子來完成對資料的模糊搜索,LIKE 運算子用于在 WHERE 子句中搜索列中的指定模式。 如果需要查找客戶表中所有姓氏是“張”的資料,可以使用下面的 SQL 陳述句: SELECT * FROM Customer WHERE Name LIKE '張%' 如果需要 ......

    uj5u.com 2020-09-10 06:13:25 more
  • 滴滴Ceph分布式存盤系統優化之鎖優化

    **桔妹導讀:**Ceph是國際知名的開源分布式存盤系統,在工業界和學術界都有著重要的影響。Ceph的架構和演算法設計發表在國際系統領域頂級會議OSDI、SOSP、SC等上。Ceph社區得到Red Hat、SUSE、Intel等大公司的大力支持。Ceph是國際云計算領域應用最廣泛的開源分布式存盤系統, ......

    uj5u.com 2020-09-10 06:14:51 more
  • es~通過ElasticsearchTemplate進行聚合~嵌套聚合

    之前寫過《es~通過ElasticsearchTemplate進行聚合操作》的文章,這一次主要寫一個嵌套的聚合,例如先對sex集合,再對desc聚合,最后再對age求和,共三層嵌套。 Aggregations的部分特性類似于SQL語言中的group by,avg,sum等函式,Aggregation ......

    uj5u.com 2020-09-10 06:14:59 more
  • 爬蟲日志監控 -- Elastc Stack(ELK)部署

    傻瓜式部署,只需替換IP與用戶 導讀: 現ELK四大組件分別為:Elasticsearch(核心)、logstash(處理)、filebeat(采集)、kibana(可視化) 下載均在https://www.elastic.co/cn/downloads/下tar包,各組件版本最好一致,配合fdm會 ......

    uj5u.com 2020-09-10 06:15:05 more
最新发布
  • day02-2-商鋪查詢快取

    功能02-商鋪查詢快取 3.商鋪詳情快取查詢 3.1什么是快取? 快取就是資料交換的緩沖區(稱作Cache),是存盤資料的臨時地方,一般讀寫性能較高。 快取的作用: 降低后端負載 提高讀寫效率,降低回應時間 快取的成本: 資料一致性成本 代碼維護成本 運維成本 3.2需求說明 如下,當我們點擊商店詳 ......

    uj5u.com 2023-04-20 08:33:24 more
  • MySQL中binlog備份腳本分享

    關于MySQL的二進制日志(binlog),我們都知道二進制日志(binlog)非常重要,尤其當你需要point to point災難恢復的時侯,所以我們要對其進行備份。關于二進制日志(binlog)的備份,可以基于flush logs方式先切換binlog,然后拷貝&壓縮到到遠程服務器或本地服務器 ......

    uj5u.com 2023-04-20 08:28:06 more
  • day02-短信登錄

    功能實作02 2.功能01-短信登錄 2.1基于Session實作登錄 2.1.1思路分析 2.1.2代碼實作 2.1.2.1發送短信驗證碼 發送短信驗證碼: 發送驗證碼的介面為:http://127.0.0.1:8080/api/user/code?phone=xxxxx<手機號> 請求方式:PO ......

    uj5u.com 2023-04-20 08:27:27 more
  • 快取與資料庫雙寫一致性幾種策略分析

    本文將對幾種快取與資料庫保證資料一致性的使用方式進行分析。為保證高并發性能,以下分析場景不考慮執行的原子性及加鎖等強一致性要求的場景,僅追求最終一致性。 ......

    uj5u.com 2023-04-20 08:26:48 more
  • sql陳述句優化

    問題查找及措施 問題查找 需要找到具體的代碼,對其進行一對一優化,而非一直把關注點放在服務器和sql平臺 降低簡化每個事務中處理的問題,盡量不要讓一個事務拖太長的時間 例如檔案上傳時,應將檔案上傳這一步放在事務外面 微軟建議 4.啟動sql定時執行計劃 怎么啟動sqlserver代理服務-百度經驗 ......

    uj5u.com 2023-04-20 08:26:35 more
  • 云時代,MySQL到ClickHouse資料同步產品對比推薦

    ClickHouse 在執行分析查詢時的速度優勢很好的彌補了MySQL的不足,但是對于很多開發者和DBA來說,如何將MySQL穩定、高效、簡單的同步到 ClickHouse 卻很困難。本文對比了 NineData、MaterializeMySQL(ClickHouse自帶)、Bifrost 三款產品... ......

    uj5u.com 2023-04-20 08:26:29 more
  • sql陳述句優化

    問題查找及措施 問題查找 需要找到具體的代碼,對其進行一對一優化,而非一直把關注點放在服務器和sql平臺 降低簡化每個事務中處理的問題,盡量不要讓一個事務拖太長的時間 例如檔案上傳時,應將檔案上傳這一步放在事務外面 微軟建議 4.啟動sql定時執行計劃 怎么啟動sqlserver代理服務-百度經驗 ......

    uj5u.com 2023-04-20 08:25:13 more
  • Redis 報”OutOfDirectMemoryError“(堆外記憶體溢位)

    Redis 報錯“OutOfDirectMemoryError(堆外記憶體溢位) ”問題如下: 一、報錯資訊: 使用 Redis 的業務介面 ,產生 OutOfDirectMemoryError(堆外記憶體溢位),如圖: 格式化后的報錯資訊: { "timestamp": "2023-04-17 22: ......

    uj5u.com 2023-04-20 08:24:54 more
  • day02-2-商鋪查詢快取

    功能02-商鋪查詢快取 3.商鋪詳情快取查詢 3.1什么是快取? 快取就是資料交換的緩沖區(稱作Cache),是存盤資料的臨時地方,一般讀寫性能較高。 快取的作用: 降低后端負載 提高讀寫效率,降低回應時間 快取的成本: 資料一致性成本 代碼維護成本 運維成本 3.2需求說明 如下,當我們點擊商店詳 ......

    uj5u.com 2023-04-20 08:24:03 more
  • day02-短信登錄

    功能實作02 2.功能01-短信登錄 2.1基于Session實作登錄 2.1.1思路分析 2.1.2代碼實作 2.1.2.1發送短信驗證碼 發送短信驗證碼: 發送驗證碼的介面為:http://127.0.0.1:8080/api/user/code?phone=xxxxx<手機號> 請求方式:PO ......

    uj5u.com 2023-04-20 08:23:11 more