主頁 > 前端設計 > Hadoop源代碼分析【1-5】

Hadoop源代碼分析【1-5】

2020-10-07 14:20:28 前端設計

寫在前面: 博主是一名大資料的初學者,昵稱來源于《愛麗絲夢游仙境》中的Alice和自己的昵稱,作為一名互聯網小白,寫博客一方面是為了記錄自己的學習歷程,一方面是希望能夠幫助到很多和自己一樣處于起步階段的萌新,由于水平有限,博客中難免會有一些錯誤,有紕漏之處懇請各位大佬不吝賜教!個人小站:http://alices.ibilibili.xyz/ , 博客主頁:https://alice.blog.csdn.net/
盡管當前水平可能不及各位大佬,但我還是希望自己能夠做得更好,因為一天的生活就是一生的縮影,我希望在最美的年華,做最好的自己

在這里插入圖片描述

Hadoop源代碼分析(一)

Google 的核心競爭技術是它的計算平臺,Google 的大牛們用了下面 5 篇文章,介紹了它們的計算設施,

GoogleCluster: http://research.google.com/archive/googlecluster.html

Chubby:http://labs.google.com/papers/chubby.html

GFS:http://labs.google.com/papers/gfs.html

BigTable:http://labs.google.com/papers/bigtable.html

MapReduce:http://labs.google.com/papers/mapreduce.html

很快,Apache 上就出現了一個類似的解決方案,目前它們都屬于 Apache 的 Hadoop 專案,對應的分別是:

Chubby-->ZooKeeper 
GFS-->HDFS 
BigTable-->HBase 
MapReduce-->Hadoop

目前,基于類似思想的 Open Source 專案還很多,如 Facebook 用于用戶分析的 Hive,

HDFS 作為一個分布式檔案系統,是所有這些專案的基礎,分析好 HDFS,有利于了解其他系統,由于 Hadoop 的 HDFS 和 MapReduce 是同一個專案,我們就把他們放在一塊,進行分析,

下圖是 MapReduce 整個專案的頂局包圖和他們的依賴關系,Hadoop 包之間的依賴關系比較復雜,原因是 HDFS 提供了一個分布式檔案系統,該系統提供 API,可以屏蔽本地檔案系統和分布式檔案系統,甚至象 Amazon S3 返樣的在線存盤系統,這就造成了分布式檔案系統的實作,或者是分布式檔案系統的底層的實作,依賴于某些貌似高層的功能,功能的相互參考,造成了蜘蛛網型的依賴關系,一個典型的例子就是包 conf,conf 用于讀取系統配置,它依賴于 fs,主要是讀取組態檔的時候,需要使用檔案系統,而部分的檔案系統的功能,在包 fs 中被抽象了,

Hadoop 的關鍵部分集中于圖中藍色部分,這也是我們考察的重點,

在這里插入圖片描述

Hadoop源代碼分析(二)

下面給出了 Hadoop 的包的功能分析,

PackageDependences
tool提供一些命令列工具,如 DistCp,archive
mapreduceHadoop 的 Map/Reduce 實作
filecache提供HDFS檔案的本地快取, 用于加快Map/Reduce 的資料訪問速度
fs檔案系統的抽象,可以理解為支持多種檔案系統實作的統一檔案訪問介面
hdfsHDFS,Hadoop 的分布式檔案系統實作
ipc一個簡單的 IPC 的實作,依賴于 io 提供的編解碼功能
io表示層,將各種資料編碼/解碼,方便于在網路上傳輸
net封裝部分網路功能,如 DNS,socket
security用戶和用戶組資訊
conf系統的配置引數
metrics系統統計資料的收集,屬于網管范疇
util工具類
record根據 DDL(資料描述語言)自動生成他們的編解碼函式,目前可以提供 C++ 和 Java
http基于 Jetty 的 HTTP Servlet,用戶通過瀏覽器可以觀察檔案系統的一些狀態資訊和日志
log提供 HTTP 訪問日志的 HTTP Servlet

Hadoop源代碼分析(三)

由于 Hadoop 的 MapReduce 和 HDFS 都有通信的需求,需要對通信的物件進行序列化,Hadoop 并沒有采用 Java 的序列化,而是引入了它自己的系統,

org.apache.hadoop.io中定義了大量的可序列化物件,他們都實作了 Writable 介面,實作了 Writable 介面的一個典型例子如下:

 public class MyWritable implements Writable { 
 // Some data 
 private int counter; 
 private long timestamp; 
 
 public void write(DataOutput out) throws IOException { 
 out.writeInt(counter); 
 out.writeLong(timestamp); 
 } 
 
 public void readFields(DataInput in) throws IOException { 
 counter = in.readInt(); 
 timestamp = in.readLong(); 
 } 
 

 public static MyWritable read(DataInput in) throws IOException { 
 MyWritable w = new MyWritable(); 
 w.readFields(in); 
 return w; 
 } 
 }

其中的 writereadFields 分別實作了把物件序列化和反序列化的功能,是 Writable 介面定義的兩個方法,下圖給出了龐大的 org.apache.hadoop.io 中物件的關系,

在這里插入圖片描述

這里,把 ObjectWritable 標為紅色,是因為相對于其他物件,它有不同的地位,當我們討論 Hadoop的 RPC時,我們會提到RPC上交換的資訊, 必須是 Java 的基本型別, String 和 Writable 介面的實作類, 以及元素為以上型別的陣列,

ObjectWritable物件保存了一個可以在 RPC上傳輸的物件和物件的型別資訊, 這樣,我們就有了一個萬能的, 可以用于客戶端 / 服務器間傳輸的
Writable 物件,例如,我們要把上面例子中的物件作為 RPC請求,需要根據 MyWritable 創建一個 ObjectWritable ,ObjectWritable 往流里會寫如下資訊,

物件類名長度,物件類名,物件自己的串行化結果

這樣,到了對端, ObjectWritable 可以根據物件類名創建對應的物件,并解串行,應該注意到, ObjectWritable 依賴于 WritableFactories ,那里存盤了 Writable 子類對應的工廠,我們需要把 MyWritable 的工廠,保存在 WritableFactories 中(通過 WritableFactories. setFactory ),

Hadoop源代碼分析(四)

介紹完 org.apache.hadoop.io 以后,我們開始來分析 org.apache.hadoop.rpc ,RPC采用客戶機 / 服務器模式, 請求程式就是一個客戶機,而服務提供程式就是一個服務器,當我們討論 HDFS的,通信可能發生在:

  • Client-NameNode 之間,其中 NameNode 是服務器
  • Client-DataNode 之間,其中 DataNode 是服務器
  • DataNode-NameNode 之間,其中 NameNode 是服務器
  • DataNode-DateNode 之間,其中某一個 DateNode 是服務器,另一個是客戶端

如果我們考慮 Hadoop的 Map/Reduce以后,這些系統間的通信就更復雜了,為了解決這些客戶機 / 服務器之間的通信, Hadoop引入了一個 RPC框架,該 RPC框架利用的 Java 的反射能力,避免了某些 RPC解決方案中需要根據某種介面語言(如 CORBA的
IDL)生成存根和框架的問題,但是,該 RPC框架要求呼叫的引數和回傳結果必須是 Java 的基本型別, String 和 Writable 介面的實作類,以及元素為以上型別的陣列,同時,介面方法應該只拋出 IOException 例外,

既然是 RPC,當然就有客戶端和服務器,當然, org.apache.hadoop.rpc也就有了類 Client 和類 Server ,但是類 Server 是一個抽象類,類 RPC封裝了 Server ,利用反射,把某個物件的方法開放出來,變成 RPC中的服務器,

下圖是 org.apache.hadoop.rpc 的類圖,

在這里插入圖片描述

Hadoop源代碼分析(五)

既然是 RPC,自然就有客戶端和服務器,當然, org.apache.hadoop.rpc 也就有了類 Client 和類 Server ,在這里我們來仔細考察 org.apache.hadoop.rpc.Client ,下面的圖包含了 org.apache.hadoop.rpc.Client 中的關鍵類和關鍵方法,

由于 Client 可能和多個 Server 通信,典型的一次 HDFS讀,需要和 NameNode打交道,也需要和某個 / 某些 DataNode通信,這就意味著某一個 Client 需要維護多個連接,同時,為了減少不必要的連接,現在 Client 的做法是拿 ConnectionId (圖中最右側)來做為 Connection 的 ID,ConnectionId 包括一個 InetSocketAddress (IP 地址+埠號或主機名 +埠號)物件和一個用戶資訊物件,這就是說,同一個用戶到同一個 InetSocketAddress 的通信將共享同一個連接,

在這里插入圖片描述
連接被封裝在類 Client.Connection 中,所有的 RPC呼叫,都是通過 Connection ,進行通信,一個 RPC呼叫,自然有輸入引數,輸出引數和可能的例外,同時,為了區分在同一個 Connection 上的不同呼叫,每個呼叫都有唯一的 id ,呼叫是否結束也需要一個標記,所有的這些都體現在物件 Client.Call 中,Connection 物件通過一個 Hash表,維護在這個連接上的所有 Call :

private Hashtable<Integer ,Call>calls = new Hashtable<Integer,Call>();

一個 RPC呼叫通過 addCall ,把請求加到 Connection 里,為了能夠在這個框架上傳輸 Java 的基本型別, String 和 Writable 介面的實作類,以及元素為以上型別的陣列,我們一般把 Call 需要的引數打包成為 ObjectWritable 物件,

Client.Connection 會通過 socket 連接服務器,連接成功后回校驗客戶端 / 服務器的版本號(Client.ConnectionwriteHeader()方法),校驗成功后就可以通過 Writable 物件來進行請求的發送 / 應答了,注意,每個 Client.Connection 會起一個執行緒,不斷去讀取 socket ,并將收到的結果解包,找出對應的 Call ,設定 Call 并通知結果已經獲取,

Call 使用 Obejct 的 wait 和 notify ,把 RPC上的異步訊息互動轉成同步呼叫,

還有一點需要注意,一個 Client 會有多個 Client.Connection ,這是一個很自然的結果,

小結

Hadoop源代碼分析【1-5】主要為大家科普了Hadoop下的各種包的功能分析,以及Hadoop下兩大核心HDFS和MapReduce如何基于RPC框架去實作通信,資料傳輸,

本篇文章就到這里,更多精彩文章及福利,敬請關注博主原創公眾號【猿人菌】!

掃碼關注

在這里插入圖片描述

關注即可獲取高質量思維導圖,互聯網一線大廠面經,大資料珍藏精品書籍...期待您的關注!

轉載請註明出處,本文鏈接:https://www.uj5u.com/qianduan/161379.html

標籤:其他

上一篇:資料結構與演算法——堆疊

下一篇:【學習筆記】學習Docker,看完這篇超詳細的教程就足夠了

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • vue移動端上拉加載

    可能做得過于簡單或者比較low,請各位大佬留情,一起探討技術 ......

    uj5u.com 2020-09-10 04:38:07 more
  • 優美網站首頁,頂部多層導航

    一個個人用的瀏覽器首頁,可以把一下常用的網站放在這里,平常打開會比較方便。 第一步,HTML代碼 <script src=https://www.cnblogs.com/szharf/p/"js/jquery-3.4.1.min.js"></script> <div id="navigate"> <ul> <li class="labels labels_1"> ......

    uj5u.com 2020-09-10 04:38:47 more
  • 頁面為要加<!DOCTYPE html>

    最近因為寫一個js函式,需要用到$(window).height(); 由于手寫demo的時候,過于自信,其實對前端方面的認識也不夠體系,用文本檔案直接敲出來的html代碼,第一行沒有加上<!DOCTYPE html> 導致了$(window).height();的結果直接是整個document的高 ......

    uj5u.com 2020-09-10 04:38:52 more
  • WordPress網站程式手動升級要做好資料備份

    WordPress博客網站程式在進行升級前,必須要做好網站資料的備份,這個問題良家佐言是遇見過的;在剛開始接觸WordPress博客程式的時候,因為升級問題和博客網站的修改的一些嘗試,良家佐言是吃盡了苦頭。因為購買的是西部數碼的空間和域名,每當佐言把自己的WordPress博客網站搞到一塌糊涂的時候 ......

    uj5u.com 2020-09-10 04:39:30 more
  • WordPress程式不能升級為5.4.2版本的原因

    WordPress是一款個人博客系統,受到英文博客愛好者和中文博客愛好者的追捧,并逐步演化成一款內容管理系統軟體;它是使用PHP語言和MySQL資料庫開發的,用戶可以在支持PHP和MySQL資料庫的服務器上使用自己的博客。每一次WordPress程式的更新,就會牽動無數WordPress愛好者的心, ......

    uj5u.com 2020-09-10 04:39:49 more
  • 使用CSS3的偽元素進行首字母下沉和首行改變樣式

    網頁中常見的一種效果,首字改變樣式或者首行改變樣式,效果如下圖。 代碼: <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <meta name="viewport" content="width=device-width, ......

    uj5u.com 2020-09-10 04:40:09 more
  • 關于a標簽的講解

    什么是a標簽? <a> 標簽定義超鏈接,用于從一個頁面鏈接到另一個頁面。 <a> 元素最重要的屬性是 href 屬性,它指定鏈接的目標。 a標簽的語法格式:<a href=https://www.cnblogs.com/summerxbc/p/"指定要跳轉的目標界面的鏈接">需要展示給用戶看見的內容</a> a標簽 在所有瀏覽器中,鏈接的默認外觀如下: 未被訪問的鏈接帶 ......

    uj5u.com 2020-09-10 04:40:11 more
  • 前端輪播圖

    在需要輪播的頁面是引入swiper.min.js和swiper.min.css swiper.min.js地址: 鏈接:https://pan.baidu.com/s/15Uh516YHa4CV3X-RyjEIWw 提取碼:4aks swiper.min.css地址 鏈接:https://pan.b ......

    uj5u.com 2020-09-10 04:40:13 more
  • 如何設定html中的背景圖片(全屏顯示,且不拉伸)

    1 <style>2 body{background-image:url(https://uploadbeta.com/api/pictures/random/?key=BingEverydayWallpaperPicture); 3 background-size:cover;background ......

    uj5u.com 2020-09-10 04:40:16 more
  • Java學習——HTML詳解(上)

    HTML詳解 初識HTML Hyper Text Markup Language(超文本標記語言) 1 <!--DOCTYPE:告訴瀏覽器我們要使用什么規范--> 2 <!DOCTYPE html> 3 <html lang="en"> 4 <head> 5 <!--meta 描述性的標簽,描述一些 ......

    uj5u.com 2020-09-10 04:40:33 more
最新发布
  • 我的第一個NPM包:panghu-planebattle-esm(胖虎飛機大戰)使用說明

    好家伙,我的包終于開發完啦 歡迎使用胖虎的飛機大戰包!! 為你的主頁添加色彩 這是一個有趣的網頁小游戲包,使用canvas和js開發 使用ES6模塊化開發 效果圖如下: (覺得圖片太sb的可以自己改) 代碼已開源!! Git: https://gitee.com/tang-and-han-dynas ......

    uj5u.com 2023-04-20 07:59:23 more
  • 生產事故-走近科學之消失的JWT

    入職多年,面對生產環境,盡管都是小心翼翼,慎之又慎,還是難免捅出簍子。輕則滿頭大汗,面紅耳赤。重則系統停擺,損失資金。每一個生產事故的背后,都是寶貴的經驗和教訓,都是專案成員的血淚史。為了更好地防范和遏制今后的各類事故,特開此專題,長期更新和記錄大大小小的各類事故。有些是親身經歷,有些是經人耳傳口授 ......

    uj5u.com 2023-04-18 07:55:04 more
  • 記錄--Canvas實作打飛字游戲

    這里給大家分享我在網上總結出來的一些知識,希望對大家有所幫助 打開游戲界面,看到一個畫面簡潔、卻又富有挑戰性的游戲。螢屏上,有一個白色的矩形框,里面不斷下落著各種單詞,而我需要迅速地輸入這些單詞。如果我輸入的單詞與螢屏上的單詞匹配,那么我就可以獲得得分;如果我輸入的單詞錯誤或者時間過長,那么我就會輸 ......

    uj5u.com 2023-04-04 08:35:30 more
  • 了解 HTTP 看這一篇就夠

    在學習網路之前,了解它的歷史能夠幫助我們明白為何它會發展為如今這個樣子,引發探究網路的興趣。下面的這張圖片就展示了“互聯網”誕生至今的發展歷程。 ......

    uj5u.com 2023-03-16 11:00:15 more
  • 藍牙-低功耗中心設備

    //11.開啟藍牙配接器 openBluetoothAdapter //21.開始搜索藍牙設備 startBluetoothDevicesDiscovery //31.開啟監聽搜索藍牙設備 onBluetoothDeviceFound //30.停止監聽搜索藍牙設備 offBluetoothDevi ......

    uj5u.com 2023-03-15 09:06:45 more
  • canvas畫板(滑鼠和觸摸)

    <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title>canves</title> <style> #canvas { cursor:url(../images/pen.png),crosshair; } #canvasdiv{ bo ......

    uj5u.com 2023-02-15 08:56:31 more
  • 手機端H5 實作自定義拍照界面

    手機端 H5 實作自定義拍照界面也可以使用 MediaDevices API 和 <video> 標簽來實作,和在桌面端做法基本一致。 首先,使用 MediaDevices.getUserMedia() 方法獲取攝像頭媒體流,并將其傳遞給 <video> 標簽進行渲染。 接著,使用 HTML 的 < ......

    uj5u.com 2023-01-12 07:58:22 more
  • 記錄--短視頻滑動播放在 H5 下的實作

    這里給大家分享我在網上總結出來的一些知識,希望對大家有所幫助 短視頻已經無數不在了,但是主體還是使用 app 來承載的。本文講述 H5 如何實作 app 的視頻滑動體驗。 無聲勝有聲,一圖頂百辯,且看下圖: 網址鏈接(需在微信或者手Q中瀏覽) 從上圖可以看到,我們主要實作的功能也是本文要講解的有: ......

    uj5u.com 2023-01-04 07:29:05 more
  • 一文讀懂 HTTP/1 HTTP/2 HTTP/3

    從 1989 年萬維網(www)誕生,HTTP(HyperText Transfer Protocol)經歷了眾多版本迭代,WebSocket 也在期間萌芽。1991 年 HTTP0.9 被發明。1996 年出現了 HTTP1.0。2015 年 HTTP2 正式發布。2020 年 HTTP3 或能正... ......

    uj5u.com 2022-12-24 06:56:02 more
  • 【HTML基礎篇002】HTML之form表單超詳解

    ??一、form表單是什么

    ??二、form表單的屬性

    ??三、input中的各種Type屬性值

    ??四、標簽 ......

    uj5u.com 2022-12-18 07:17:06 more