一、什么是作業流？

在闡述什么是作業流之前，先說一下作業流和普通任務的區別，在于依賴視圖，

普通任務本身他只會有自己的dag圖，依賴視圖是無邊界的，不可控的，而作業流則是把整個作業流都展示出來，是有邊界的，可控的，這是作業流的優勢，下面為大家介紹作業流的相關功能：

01 作業流—功能介紹

● 虛擬節點

虛擬節點，它是不產生任何資料的空跑節點（即調度到該節點時，系統直接回傳成功，不會真正執行、不會占用資源或阻塞下游節點運行），比如說任務并行執行，那么就會用到虛擬節點，

file

● 周期生成

指調度系統按照調度配置自動定時運行的任務，

file

● 補資料運行

當業務變更，可以使用補資料功能，如修改了某個任務的代碼，可將本月的資料按照新的代碼重新跑一遍，立即生成所需資料，

● 調度屬性

作業流中的子任務依賴于父任務的周期調度屬性，父任務修改后，子任務同步修改，以作業流的周期調度屬性作為各個子節點的周期調度時間，
file

● 作業流所在目錄

修改作業流目錄同步修改作業流下的子任務目錄，
file

02 作業流—依賴成環

具體實作：

任務完成依賴的關系，key為當前節點，value為該節點的所有父節點Map < long list> nodeMap，

file

遍歷nodeMap，以此遍歷單集合中的每一個節點，每遍歷一個新節點，就從頭檢查新節點之前的所有節點，用新節點和此節點之前所有節點依次做比較，如果發現新節點和之前的某個節點相同，則說明該節點被遍歷過兩次，鏈表有環，如果之前的所有節點中不存在與新節點相同的節點，就繼續遍歷下一個新節點，繼續重復剛才的操作，

二、Taier作業流周期實體運行

了解完作業流的功能介紹后，我們來為大家分享Taier作業流周期實體運行：

01 Taier—周期實體生成

Taier主節點在啟動的時候，會開啟一個定時器，定時器會不停的去判斷當日的實體是否已經生成，如果沒有生成，就會觸發事件給CycleJobBuilder生成實體，再通過JobDependency封裝實體之間的依賴關系，

● CycleJobBuilder

用于生成周期實體，掃描資料庫任務表并且獲取zk上所有的Taier節點，把封裝后的實體分配到每一臺Taier節點上，

● JobDependency

用于生成job之間的依賴關系，

file

02 Taier—調度流程

在啟動Taier服務時，會啟動配置的所有調度器，并且開始掃描實體，并提交，

file

03 Taier—作業流任務狀態修改邏輯

任務提交攔截器處理：

1、作業流下無子任務更新為完成狀態

2、作業流下任務都是完成狀態，任務提交佇列可以移除

3、同時更新作業流engine_job狀態，作業流只有四種狀態，成功/失敗/取消/提交中：

(1) 所有子任務狀態為運行成功時，作業流狀態更新為成功

(2) 作業流狀態根據子任務的運行狀態來確定，失敗狀態存在優先級：運行失敗>提交失敗>上游失敗

a.子任務存在運行失敗時，作業流狀態更新為運行失敗

b.子任務不存在運行失敗時，存在提交失敗，作業流狀態更新為提交失敗

c.子任務不存在運行失敗時，不存在提交失敗，存在上游失敗時，作業流狀態更新為上游失敗

(3) 子任務存在取消狀態時，作業流狀態更新為取消

(4) 若子任務中同時存在運行失敗或取消狀態，作業流狀態更新為失敗狀態

(5) 其他作業流更新為運行中狀態

三、Taier1.3即將上線功能

新增功能

· ChunJun的向導模式資料源增強 hive1、hive2、hive3、sparkThrift、oracle、mysql、postgresql、sqlserver 、es7

· flink on standalone、python.shell、spark jar 、pyspark支持

· 自定義任務型別 web界面配置抽取

· windows開發環境適配

袋鼠云開源框架釘釘技術交流qun（30537511），歡迎對大資料開源專案有興趣的同學加入交流最新技術資訊，開源專案庫地址：https://github.com/DTStack/Taier

轉載請註明出處，本文鏈接：https://www.uj5u.com/shujuku/517687.html

標籤：大數據

上一篇：無法創建maven原型專案，進度條卡在33%

下一篇：MySQL 8.0.31并行構建索引特性管窺

一文讀懂：開源大資料調度系統Taier1.2版本新增的「作業流」到底是什么？

一、什么是作業流？

01 作業流—功能介紹

02 作業流—依賴成環

二、Taier作業流周期實體運行

01 Taier—周期實體生成

02 Taier—調度流程

03 Taier—作業流任務狀態修改邏輯

1、作業流下無子任務更新為完成狀態

2、作業流下任務都是完成狀態，任務提交佇列可以移除

3、同時更新作業流engine_job狀態，作業流只有四種狀態，成功/失敗/取消/提交中：

(1) 所有子任務狀態為運行成功時，作業流狀態更新為成功

(2) 作業流狀態根據子任務的運行狀態來確定，失敗狀態存在優先級：運行失敗>提交失敗>上游失敗

a.子任務存在運行失敗時，作業流狀態更新為運行失敗

b.子任務不存在運行失敗時，存在提交失敗，作業流狀態更新為提交失敗

c.子任務不存在運行失敗時，不存在提交失敗，存在上游失敗時，作業流狀態更新為上游失敗

(3) 子任務存在取消狀態時，作業流狀態更新為取消

(4) 若子任務中同時存在運行失敗或取消狀態，作業流狀態更新為失敗狀態

(5) 其他作業流更新為運行中狀態

三、Taier1.3即將上線功能

新增功能