🍓前幾篇博客中,我們講到阿里云的MaxComputer,今天我們繼續學習阿里云的DataWorks,對DataWorks的學習計劃是寫2章,對外往期內容感興趣的小伙伴可以參考下面的內容👇:
- hadoop專題: hadoop系列文章.
- spark專題: spark系列文章.
- 阿里云系列: 阿里云MaxComputer SQL學習之DDL.
- 阿里云系列: 阿里云MaxComputer SQL學習之DML.
- 阿里云系列: 阿里云MaxComputer SQL學習之內置函式.
🍑本文是DataWorks系列的第一章,關于DataWorks的簡介部分,主要介紹大資料開發與治理平臺DataWorks的功能概念,
關于DataWorks的實戰部分,也在同一天完成了,一起發出來:
- 阿里云系列: 阿里云DataWorks學習之平臺實踐.
目錄
- 1. DataWorks簡介
- 1.1 DataWorks在大資料架構中的位置
- 1.2 DataWorks功能架構
- 1.3 DataWorks的核心功能
- 2. DataWorks的應用
- 2.1 資料處理部分
- 2.1.1 資料輸入(資料同步)
- 2.1.2 資料開發
- 2.1.3 任務運維
- 2.2 資料管理
- 3. 總結
- 4. 參考資料
1. DataWorks簡介
DataWorks(資料工場)是阿里云重要的PaaS平臺產品,它提供全面托管的作業流服務,一站式開發管理的界面,幫助企業專注于資料價值的挖掘和探索,主要包括下面幾個部分:
- 全面任務托管:具有強大的調度能力,提供完全的托管服務,
- 多種任務型別:資料同步、OPDS SQL 、MR、SHELL、機器學習,
- 可視化開發:提供可視化的代開發、作業流設計界面,
- 監控報警:可視化的任務監控,任務監控短信報警,
1.1 DataWorks在大資料架構中的位置
如圖:DataWorks集成了資料開發、任務調度、資料管理的功能,

1.2 DataWorks功能架構
如圖:DataWorks將大資料處理的一套流程都集成起來,方便開發業務的流暢運行,

1.3 DataWorks的核心功能
- 資料集成:主要用于離線/實時資料同步,提供復雜網路下、豐富的異構資料源之間高速穩定的資料移動及同步能力,
- 資料開發:對MaxComputer中的資料進行加工、分析與挖掘等處理,發現其價值,
- 資料應用:MaxComputer 中的資料進行加工處理后,應用各種場景,如資料提取、資料交換、資料報表、資料分析,
- 資料服務:提供為企業搭建統一的資料服務總線,幫助企業統一管理對外對內的API服務,提供快速將資料表生成API的能力,同時支持快速注冊現有API至資料服務平臺,進行統一的管理和發布,
- 資料治理:多種資料處理視角下的資料治理流程與工具引導,滿足資料生產、資料使用、資料管理場景下的主要資料治理需求,如資料質量、資料地圖、安全中心、資料保護傘,
- 任務運維:各種資料處理任務的發布、監管、運維,
2. DataWorks的應用
2.1 資料處理部分
2.1.1 資料輸入(資料同步)
資料同步是資料流程處理的第一步:如圖

資料集成有以下幾個特點:
- 僅支持結構化的資料
- 支持單地域內及部分跨地域的相互同步、交換
- 完成資料同步,本身不提供資料流的消費方式
通常來說,資料同步都是將業務系統中產生的業務資料定期匯入到作業區,通過作業流任務的加工處理后,再將計算結果定期匯入到指定的資料源中,供進一步展示或者使用,
2.1.2 資料開發
資料開發是在資料集成之后的作業,在大資料處理中的位置如下:

資料開發模式采用專案>解決方案>業務流程三級結構,按照業務種類將相關的不同型別的節點任務組織在一起,
- 專案:權限組織的基本單位,用來控制用戶的開發、運維等權限,
- 解決方案:可以定義組合一些業務流程為一個解決方案,一個方案可以包含多個流程;解決方案之間可以復用相同的流程;組織完成的解決方案可以沉浸式開發,
- 業務流程:對業務的抽象物體,以業務的角度來組織資料代碼開發,業務流程可以被多個解決方案復用,
開發流程如下:這里展示的是odps sql的開發流程,其他的開發流程大同小異,

2.1.3 任務運維
資料開發完成的任務部署到生產調度,調度系統每天運行著大量的資料處理任務,任務之間依賴復雜,保證任務按時正常運行,任務運維在大資料處理的部分如下:

DataWorks的任務運維是在運維中心模塊進行,主要包括的功能:

智能監控模塊是DataWorks任務運行的監控及分析系統,根據監控規則和任務運行的情況,智能監控決策是否報警、何時報警、如何報警、以及報警給給誰,智能監控會自動選擇最合理的報警時間,報警方式以及報警物件,
2.2 資料管理
DataWorks的資料管理通過資料地圖功能實作對資料的統一管理和血緣的跟蹤,資料地鐵以資料搜索為基礎,提供表使用說明、資料類目、資料血緣、欄位血緣等工具,幫助資料表的使用者和擁有者更好地管理資料、協作開發,

3. 總結
這一部分DataWorks的介紹主要偏向于理論,大家只要記得DataWorks是一個集成各種大資料處理功能的平臺即可,
4. 參考資料
《阿里云全球培訓中心》
《阿里云DataWorks使用手冊》
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/423060.html
標籤:其他
