構建企業級資料湖？Azure Data Lake Storage Gen2實戰體驗（中）-有解無憂

引言

相較傳統的重量級OLAP資料倉庫，“資料湖”以其資料體量大、綜合成本低、支持非結構化資料、查詢靈活多變等特點，受到越來越多企業的青睞，逐漸成為了現代資料平臺的核心和架構范式，

因此資料湖相關服務成為了云計算的發展重點之一，Azure平臺早年就曾發布第一代Data Lake Storage，隨后微軟將它與Azure Storage進行了大力整合，于今年初正式對外發布了其第二代產品：Azure Data Lake Storage Gen2 (下稱ADLS Gen2)，ADLS Gen2的口號是“不妥協的資料湖平臺，它結合了豐富的高級資料湖解決方案功能集以及 Azure Blob 存盤的經濟性、全球規模和企業級安全性”，

全新一代的ADLS Gen2實際體驗如何？在架構及特性上是否堪任大型資料湖應用的主存盤呢？在上篇文章中，我們已對ADLS Gen2的基本操作和權限體系有了初步的了解，接下來讓我們繼續深入探究，尤其是關注ADLS Gen2作為存盤層掛載到大資料集群后的表現，

ADLS Gen2體驗：集群掛載

資料湖存盤主要適用于大資料處理的場景，所以我們選擇建立一個HDInsight大資料集群來進行實驗，使用Spark來訪問和操作資料湖中的資料，可以看到HDInsight已經支持ADLS Gen2了：

接下來是比較關鍵的存盤配置環節，我們指定使用一個新建的ADLS Gen2實體hdiclusterroot來作為整個集群的存盤，檔案系統名為hdfs-root，如圖所示：

（圖中我們還配置了Additional storage accounts，用于掛載傳統Blob，之后作性能對比時會用到，此處暫不展開，）

很有意思的是上圖的下半部分，它允許我們指定一個Identity，這個Identity可以代表Spark集群的身份和訪問權限，這非常關鍵，意味著集群的身份能夠完美地與ADLS Gen2的權限體系對應起來，在企業級的場景中能夠很好地落地對于大資料資源訪問的管控，

這里選擇了專門建立的一個spark-cluster-identity作為集群的身份，我們事先為它賦予了hdiclusterroot這個存盤賬號的storage blob data owner權限，以便該identity能夠對資料湖中的資料進行任意操作：

完成其他配置后按下創建按鈕，Azure會一鍵生成Spark集群，大約十來分鐘后整個集群就進入可用狀態了：

我們迫不及待地SSH登錄進集群，查看其默認掛載的檔案系統，嘗試使用hadoop fs -ls列出根目錄下的檔案資訊：

sshuser@hn0-cloudp:~$ hadoop fs -ls /Found 18 itemsdrwxr-xr-x   - sshuser sshuser          0 2019-08-26 03:10 /HdiNotebooksdrwxr-xr-x   - sshuser sshuser          0 2019-08-26 03:29 /HdiSamplesdrwxr-x---   - sshuser sshuser          0 2019-08-26 02:54 /amsdrwxr-x---   - sshuser sshuser          0 2019-08-26 02:54 /amshbasedrwxrwx-wt   - sshuser sshuser          0 2019-08-26 02:54 /app-logsdrwxr-x---   - sshuser sshuser          0 2019-09-06 07:41 /appsdrwxr-x--x   - sshuser sshuser          0 2019-08-26 02:54 /atshistorydrwxr-xr-x   - sshuser sshuser          0 2019-08-26 03:25 /custom-scriptaction-logsdrwxr-xr-x   - sshuser sshuser          0 2019-08-26 03:19 /exampledrwxr-x---   - sshuser sshuser          0 2019-08-26 02:54 /hbasedrwxr-x--x   - sshuser sshuser          0 2019-09-06 07:41 /hdpdrwxr-x---   - sshuser sshuser          0 2019-08-26 02:54 /hivedrwxr-x---   - sshuser sshuser          0 2019-08-26 02:54 /mapreddrwxrwx-wt   - sshuser sshuser          0 2019-08-26 03:19 /mapreducestagingdrwxrwx-wt   - sshuser sshuser          0 2019-08-26 02:54 /mr-historydrwxrwx-wt   - sshuser sshuser          0 2019-08-26 03:19 /tezstagingdrwxr-x---   - sshuser sshuser          0 2019-08-26 02:54 /tmpdrwxrwx-wt   - sshuser sshuser          0 2019-09-09 02:31 /user

將檔案串列和ADLS Gen2比對，可以看到這里的“根目錄”事實上就完全對應著hdiclusterroot這個資料湖實體下hdfs-root檔案系統中的資料，這說明集群實作了該資料湖檔案系統的掛載：

那么，這樣的遠程掛載是如何實作的呢？打開集群的core-site.xml 組態檔，答案在fs.defaultFS配置節中：

<property>    <name>fs.defaultFS</name>    <value>abfs://[email protected]</value>    <final>true</final></property>

原來，與通常使用hdfs不同，集群的fs.defaultFS在創建時就被設定為了以abfs為開頭的特定url，該url正是指向我們的資料湖存盤，這個ABFS驅動(Azure Blob File System)是微軟專門為Data Lake Storage Gen2開發，全面實作了Hadoop的FileSystem介面，為Hadoop體系和ADLS Gen2架起了溝通橋梁，

為證明資料湖檔案系統能夠正常作業，我們來運行一個經典的WordCount程式，筆者使用AzCopy往資料湖中上傳了一本小說《雙城記》 (ATaleOfTwoCities.txt)，然后到HDInsight集群自帶的Jupyter Notebook里通過Scala腳本運用Spark來進行詞頻統計：

Great! 我們的Spark on ADLS Gen2實驗完美運行，程序如絲般順滑，

小結

Azure Data Lake Storage Gen2是微軟Azure全新一代的大資料存盤產品，專為企業級資料湖類應用所構建，它繼承了Azure Blob Storage易于使用、成本低廉的特點，同時又加入了目錄層次結構、細粒度權限控制等企業級特性，

作為ADLS Gen2系列的第二篇，本文主要實踐了大資料集群掛載ADLS Gen2作為主存盤的場景，在證明ADLS Gen2具備良好Hadoop生態兼容性的同時，也體驗了與傳統HDFS不同的存盤計算分離架構，該種架構由于可獨立擴展計算和存盤部分，非常適合云端特點，正受到越來越多的歡迎，后續我們還將探索ADLS Gen2的更多特性，敬請關注，

關聯閱讀：

構建企業級資料湖？Azure Data Lake Storage Gen2實戰體驗（上）

“云間拾遺”專注于從用戶視角介紹云計算產品與技術，堅持以實操體驗為核心輸出內容，同時結合產品邏輯對應用場景進行深度解讀，歡迎掃描下方二維碼關注“云間拾遺”微信公眾號，或訂閱本博客，

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/65545.html

標籤：其他

上一篇：求解答計算機網路規劃題目，希望可以有人指點指點

下一篇：請教打不開網站