原文鏈接：當我們在聊「開源大資料調度系統Taier」的資料開發功能時，到底在討論什么？

課件獲取：關注公眾號__ “數堆疊研習社”，后臺私信 “Taier”__ 獲得直播課件

視頻回放：點擊這里

Taier 開源專案地址：github 丨 gitee 喜歡我們的專案給我們點個__ STAR！STAR！！STAR！！！（重要的事情說三遍）__

技術交流釘釘 qun：30537511

本期我們帶大家回顧一下摘月同學的直播分享《Taier資料開發介紹》

之前三期內容，我們為大家分享了Taier入門、控制臺以及Web前端架構的介紹，本次分享我們將從Taier的資料開發功能，到任務運行、功能可擴展點以及未來規劃為大家進行講解，

一、資料開發功能介紹

Taier 是袋鼠云開源專案之一，是一個分布式可視化的DAG任務調度系統，旨在降低ETL開發成本、提高大資料平臺穩定性，Taier的資料開發功能主要分為以下三種：

1、資源管理

資源管理通常使用在UDF等自定義函式的場景中，也可以在任務開發中使用，在Taier中，對于函式參考，主要用在Spark、Flink自定義函式中，而在任務參考中，則主要用于Flink任務，

file

2、函式管理

自定義函式處理流程如下圖所示：

file

函式管理在Taier中的具體實作主要包括以下兩個方面：

基于calcite完成不同資料源SQL自定義函式決議
使用SQL運行前創建臨時函式替代創建永久函式，使函式使用更加靈活

3、任務管理

Taier現支持任務：Flink SQL、實時采集、資料同步（ChunJun）、Spark SQL、HiveSQL

Taier中有兩塊區分，分別為集群和資料開發，如果想在Taier中跑一個任務，需要先在集群中進行配置，具體組件與任務關系如下圖：

file

二、Taier任務運行講解

了解完Taier資料開發的功能介紹后，我們來為大家分享Taier的任務運行邏輯，

1、Spark Sql、Hive Sql臨時運行流程

Spark Sql、Hive Sql 臨時運行流程主要分為任務撰寫、SQL處理、SQL執行三步，以下圖為SparkSql執行流程：

file

2、Spark Sql 、Hive Sql 運行依賴

Spark Sql 、Hive Sql 運行依賴主要包括以下兩類：

● Sql決議（基于calcite進行）

· Sql Type 決議

· 函式、表名決議

● 資料源插件

· 統一不同資料源操作入口

· 封裝資料源對應的資料操作方法

三、功能可擴展點介紹

當前而言，Taier中的功能還較為簡單，只開放了主要流程的功能，在開源中還有許多可擴展點，接下來為大家介紹Taier的功能可擴展點，

1、功能擴展——資料權限控制

在sparkThrift、hiveserver中去進行create、insert into、alter、select時，不同的公司、不同的人有不一樣的資料權限控制，面對這種情況，可以利用Apache Ranger大資料權限管理框架進行權限配置，

具體地址為：

github：https://github.com/ranger/ranger

2、功能擴展——資料血源追蹤

通過SQL決議可以得到表和表之間的關系，以及不同表中欄位之間的血源關系，

● 實作工具：calcite

● 可操作任務：SparkSql、HiveSql、資料同步（ChunJun)

用sql舉例：

create table zy_0710_1 (id int, name string);

create table zy_0710_2 as select id , name from zy_0710_1;

create table zy_0710_3 as select id , name from zy_0710_2;

file

四、Taier1.2嘗鮮

最后為大家介紹未來不久將發布的Taier1.2新版本嘗鮮：

●集群管理

控制臺ui升級

● 資料開發

集群租戶系結流程簡化
任務開發代碼層面優化
任務新增schema配置

● 新增功能

FlinkSql支持jar包方式
新增作業流任務
自定義擴展開發任務

袋鼠云開源框架釘釘技術交流qun（30537511），歡迎對大資料開源專案有興趣的同學加入交流最新技術資訊，開源專案庫地址：https://github.com/DTStack

轉載請註明出處，本文鏈接：https://www.uj5u.com/shujuku/500029.html

標籤：其他

上一篇：Postico for Mac(好用的PostgreSQL客戶端)

下一篇：管正雄：基于預訓練模型、智能運維的QA生成演算法落地