點亮 ?? Star · 照亮開源之路

GitHub:https://github.com/apache/dolphinscheduler

Apache DolphinScheduler是一款非常不錯的調度工具，可單機可集群可容器，可調度sql、存盤程序、http、大資料等，也可使用shell、python、java、flink等語言及工具，功能強大型別豐富，適合各類調度型任務，社區及專案也十分活躍，現在Github中已有8.5k的star??

準備作業

閱讀本文前建議您先閱讀下官方的檔案

檔案鏈接：https://dolphinscheduler.apache.org/zh-cn/docs/latest/user_doc/guide/parameter/context.html

在這里，先準備下sql表資源，以下為postgresql的sql腳本:

表結構

CREATE TABLE dolphinscheduler.tmp (

id int4 NOT NULL,

"name" varchar(50) NULL,

"label" varchar(50) NULL,

update_time timestamp NULL,

score int4 NULL,

CONSTRAINT tmp_pkey PRIMARY KEY (id) );

表資料

INSERT INTO tmp (id,"name","label",update_time,score) VALUES

(3,'二狗子','','2022-07-06 21:49:26.872',NULL),

(2,'馬云云','',NULL,NULL),

(1,'李思','','2022-07-05 19:54:31.880',85);

我這里使用的 postgresql 的資料庫，如果您是 mysql 或者其他資料的用戶，請自行更改以上表和資料并添加到庫中即可~

表及資料入庫，請將tmp所屬的庫配置到 DS后臺->資料源中心->創建資料源，以下是我的配置，記住，這里面的所有資料庫配置均遵守所屬資料庫型別的jdbc 的 driver 的配置引數，配置完成也會在DS的資料庫生成一條 jdbc 的連接地址，這點要明白～

簡單的專案創建及說明

因為DolphinScheduler的任務是配置在專案下面，所以第一步得新建一個專案，這樣：DS后臺->專案管理->創建專案，這是我創建的請看下圖：

準備完專案之后，滑鼠點進去，并進入到作業流定義選單頁面，如下圖：

簡單解釋下DS的基本結構

首先，DS一般部署在 linux 服務器下，創建任務的用戶需要在 admin賬戶下創建，重要的是創建的每個作業賬戶需要與作業系統用戶一一對應.

比如你創建了一個 test 的DS賬戶，那所在的服務器也必須有一個test的賬戶才可行，這是DS的規則，

每個用戶下(除了admin外）所能創建的調度任務均在各自創建的專案下，每個專案又分為多個任務(作業流定義),一個任務下又可分為多個任務節點，

下圖為任務定義

ok,如果已經準備好以上步驟，下面開始繼續定義一個簡單的調度任務～

簡單的引數傳遞

先看表：

如圖我們先做個簡單的：

如果二狗子的本名叫李思，需要取** id=1 的 name 放到id=3 **的 label 中，并且更新 update_time

01

在作業流定義串列，點擊創建作業流就進入一個具體的任務(作業流)的定義,同時我們使用的是sql任務，需要從左側拖動一個sql任務到畫布中(右側空白處)：

拖動 sql任務到畫布會自動彈出節點定義，上圖為當前節點的一個定義，重點是：資料源、sql型別、sql陳述句，如官方所說，如果將 name 傳遞到下游，則需要在自定義引數重定義這個 name 為 out方向型別為varchar，

02

因為傳遞到引數需要寫入到表，這里我們再定義一個節點，這個節點負責接收上游傳遞到name，執行update 時使用這個 name ，以下是我的定義：

這里不僅僅要注意 sql型別 (sql型別與sql陳述句是一一對應的，型別不能錯) ，還有就是前置任務一定要選中(上面定義的) node1節點，另外，需要注意的是當前任務是上下游傳參，所以在node2 中是直接使用 node1中定義的 name 這個引數，

03

定義完成當前任務需要保存：點右上角保存，填寫并保存后點關閉以退出定義；

04

定義的任務需要上線了才可執行，所以在作業流定義串列先點該任務的黃色按鈕(任務上線)，然后才是點綠色按鈕(執行任務)：

05

任務執行成功與否，具體得看任務實體，這是執行 node2節點的日志：

順帶再看看資料庫表是否真實成功：

完美??

復雜的跨節點傳參

首先看表：

思考一個問題：可以看到李思的score是85，根據score應該被評為 B(>=90的為A)并寫入到 label欄位，該怎么辦呢？如果這個分數是90分又該怎么辦呢？如果根本沒有score(分值) 這個任務是不是就不需要更新李思的label(評分)呢？

對于上面問題可以有一些偏門的解決方法，比如在sql中塞一個例外值，這樣看似不錯，不過作為調度工具建議還是在condition節點或者switch節點處理是最好的，目前我用的2.0.5版本對于這兩類任務節點是沒法接收引數的，這是一個遺憾；

個人覺得較好的方式是在寫入節點之前增加一個判斷節點，將錯誤拋出(沒有score的）最好～，對于此，我使用了一個shell的中間節點，

下面是我定義的三個節點：

node1節點定義：

node2節點定義：

腳本內容

#!/bin/bash echo "=====>input param start<=====" echo "id=${id}" echo "score=${score}" echo "=====>input param end<=====" id=${id} echo '${setValue(id2='$id')}' if [ "${score}" -ge "90" ];then echo '${setValue(label2=level A)}' echo "level A" elif [ "${score}" -ge "80" ];then echo '${setValue(label2=level B)}' echo "level B" elif [ "${score}" -ge "60" ];then echo '${setValue(label2=level C)}' echo "level C" elif [ "${score}" -ge "0" ];then echo '${setValue(label2=F!)}' echo "F!" else echo "NO score ,please check!" exit 1 fi

node3節點定義：

看一眼結果??：

小結

1、對于shell腳本不熟悉的，判斷節點其實還是有一些難度的，這是很重要的一點；

2、**node2(判斷節點)不能有重復的引數，不管區域的還是node1(上一級)**傳遞過來的，均不能重復；

3、因為在node2(判斷節點)需要將 id 以及 label 繼續往下傳(to node3),這時候就需要給 id 以及 label定義一個映射的out變數(id2、label2)；

3、node2中重新設定引數麻煩，**需要在 shell 中重新定義變數(id2、label2),**同時需要在shell任務內使用拼接的方式賦值(如：echo '${setValue(id2='$id')}')；

4、sql型別以及不同節點下不同引數時常搞錯，不是任何節點都可以接收上級節點引數，以及區域變數與傳遞變數以及全域變數優先級區別及可能造成沖突；

5、DS串列傳參(2.0是不可以的)很雞肋,對于串列傳參又不能在下一級節點做回圈賦值，這點對于DS是有改進的空間的；

DolphinScheduler還有很多可擴展的地方(因為實際需要)，我還做了一些二次開發??，后面會聊...大家期待喲??

參與貢獻

隨著國內開源的迅猛崛起，Apache DolphinScheduler 社區迎來蓬勃發展，為了做更好用、易用的調度，真誠歡迎熱愛開源的伙伴加入到開源社區中來，為中國開源崛起獻上一份自己的力量，讓本土開源走向全球，

歡迎關注

參與 DolphinScheduler 社區有非常多的參與貢獻的方式，包括：

貢獻第一個PR(檔案、代碼) 我們也希望是簡單的，第一個PR用于熟悉提交的流程和社區協作以及感受社區的友好度，

社區匯總了以下適合新手的問題串列：https://github.com/apache/dolphinscheduler/issues/5689

非新手問題串列：https://github.com/apache/dolphinscheduler/issues?q=is%3Aopen+is%3Aissue+label%3A"volunteer+wanted"

如何參與貢獻鏈接：https://dolphinscheduler.apache.org/zh-cn/community/development/contribute.html

來吧，DolphinScheduler開源社區需要您的參與，為中國開源崛起添磚加瓦吧，哪怕只是小小的一塊瓦，匯聚起來的力量也是巨大的，

參與開源可以近距離與各路高手切磋，迅速提升自己的技能，如果您想參與貢獻，我們有個貢獻者種子范訓群，可以添加社區Leonard-ds ，手把手教會您( 貢獻者不分水平高低，有問必答，關鍵是有一顆愿意貢獻的心 )，

添加小助手時請說明想參與貢獻，

來吧，開源社區非常期待您的參與，

< ???? >

?點亮 ?? Star · 照亮開源之路
GitHub:[https://github.com/apache/dolphinscheduler](https://github.com/apache/dolphinscheduler)
![](https://img.uj5u.com/2022/08/31/320622310922251.png)
Apache DolphinScheduler是一款非常不錯的調度工具，可單機可集群可容器，可調度sql、存盤程序、http、大資料等，也可使用shell、python、java、flink等語言及工具，功能強大型別豐富，適合各類調度型任務，社區及專案也十分活躍，現在Github中已有8.5k的star??
# 準備作業
閱讀本文前建議您先閱讀下官方的檔案
檔案鏈接：[https://dolphinscheduler.apache.org/zh-cn/docs/latest/user_doc/guide/parameter/context.html](https://dolphinscheduler.apache.org/zh-cn/docs/latest/user_doc/guide/parameter/context.html)
在這里，先準備下sql表資源，以下為`postgresql`的`sql`腳本:
## 表結構
```CREATE TABLE dolphinscheduler.tmp (
id int4 NOT NULL,
"name" varchar(50) NULL,
"label" varchar(50) NULL,
update_time timestamp NULL,
score int4 NULL,
CONSTRAINT tmp_pkey PRIMARY KEY (id) );
```
## 表資料
```INSERT INTO tmp (id,"name","label",update_time,score) VALUES
(3,'二狗子','','2022-07-06 21:49:26.872',NULL),
(2,'馬云云','',NULL,NULL),
(1,'李思','','2022-07-05 19:54:31.880',85);
```
我這里使用的 postgresql 的資料庫，如果您是 mysql 或者其他資料的用戶，請自行更改以上表和資料并添加到庫中即可~
表及資料入庫，請將tmp所屬的庫配置到 DS后臺->資料源中心->創建資料源，以下是我的配置，記住，這里面的所有資料庫配置均遵守所屬資料庫型別的jdbc 的 driver 的配置引數，配置完成也會在DS的資料庫生成一條 jdbc 的連接地址，這點要明白～
# 簡單的專案創建及說明
因為DolphinScheduler的任務是配置在專案下面，所以第一步得新建一個專案，這樣：`DS后臺`->`專案管理`->`創建專案`，這是我創建的請看下圖：
![](https://img.uj5u.com/2022/08/31/320622310922253.png)
準備完專案之后，滑鼠點進去，并進入到作業流定義選單頁面，如下圖：
![](https://img.uj5u.com/2022/08/31/320622310922254.png)
## 簡單解釋下DS的基本結構
首先，DS一般部署在 linux 服務器下，創建任務的用戶需要在 admin賬戶下創建，重要的是創建的每個作業賬戶需要與作業系統用戶一一對應.
比如你創建了一個 test 的DS賬戶，那所在的服務器也必須有一個test的賬戶才可行，這是DS的規則，
每個用戶下(除了admin外）所能創建的調度任務均在各自創建的專案下，每個專案又分為多個任務(作業流定義),一個任務下又可分為多個任務節點，
下圖為任務定義
![](https://img.uj5u.com/2022/08/31/320622310922255.png)
ok,如果已經準備好以上步驟，下面開始繼續定義一個簡單的調度任務～
# 簡單的引數傳遞
先看表：
![](https://img.uj5u.com/2022/08/31/320622310922256.png)
如圖我們先做個簡單的：
如果二狗子的本名叫李思，需要取** id=1 **的 name 放到**id=3 **的 label 中，并且更新 update_time

### 01
在作業流定義串列，點擊創建作業流就進入一個具體的任務(作業流)的定義,同時我們使用的是sql任務，需要從左側拖動一個sql任務到畫布中(右側空白處)：
![](https://img.uj5u.com/2022/08/31/320622310922257.png)
拖動 sql任務到畫布會自動彈出節點定義，上圖為當前節點的一個定義，重點是：資料源、sql型別、sql陳述句，如官方所說，如果將 name 傳遞到下游，則需要在自定義引數重定義這個 name 為 out方向型別為varchar，
### 02
因為傳遞到引數需要寫入到表，這里我們再定義一個節點，這個節點負責接收上游傳遞到name，執行update 時使用這個 name ，以下是我的定義：
![](https://img.uj5u.com/2022/08/31/320622310922258.png)
這里不僅僅要注意 sql型別 (sql型別與sql陳述句是一一對應的，型別不能錯) ，還有就是前置任務一定要選中(上面定義的) node1節點，另外，需要注意的是當前任務是上下游傳參，所以在node2 中是直接使用 node1中定義的 name 這個引數，
### 03
定義完成當前任務需要保存：點右上角保存，填寫并保存后點關閉以退出定義；
![](https://img.uj5u.com/2022/08/31/320622310922259.png)
### 04
定義的任務需要上線了才可執行，所以在作業流定義串列先點該任務的黃色按鈕(任務上線)，然后才是點綠色按鈕(執行任務)：

### 05
任務執行成功與否，具體得看任務實體，這是執行 node2節點的日志：
![](https://img.uj5u.com/2022/08/31/3206223109222510.png)
順帶再看看資料庫表是否真實成功：
![](https://img.uj5u.com/2022/08/31/3206223109222511.png)
完美??
# 復雜的跨節點傳參
首先看表：
![](https://img.uj5u.com/2022/08/31/3206223109222512.png)
思考一個問題：可以看到李思的score是85，根據score應該被評為 B(>=90的為A)并寫入到 label欄位，該怎么辦呢？如果這個分數是90分又該怎么辦呢？如果根本沒有score(分值) 這個任務是不是就不需要更新李思的label(評分)呢？
對于上面問題可以有一些偏門的解決方法，比如在sql中塞一個例外值，這樣看似不錯，不過作為調度工具建議還是在condition節點或者switch節點處理是最好的，目前我用的2.0.5版本對于這兩類任務節點是沒法接收引數的，這是一個遺憾；
個人覺得較好的方式是在寫入節點之前增加一個判斷節點，將錯誤拋出(沒有score的）最好～，對于此，我使用了一個shell的中間節點，
下面是我定義的三個節點：
node1節點定義：
![](https://img.uj5u.com/2022/08/31/3206223109222513.png)
node2節點定義：
![](https://img.uj5u.com/2022/08/31/3206223109222514.png)
**腳本內容**
```#!/bin/bash echo "=====>input param start<=====" echo "id=${id}" echo "score=${score}" echo "=====>input param end<=====" id=${id} echo '${setValue(id2='$id')}' if [ "${score}" -ge "90" ];then echo '${setValue(label2=level A)}' echo "level A" elif [ "${score}" -ge "80" ];then echo '${setValue(label2=level B)}' echo "level B" elif [ "${score}" -ge "60" ];then echo '${setValue(label2=level C)}' echo "level C" elif [ "${score}" -ge "0" ];then echo '${setValue(label2=F!)}' echo "F!" else echo "NO score ,please check!" exit 1 fi```
node3節點定義：
![](https://img.uj5u.com/2022/08/31/3206223109222515.png)
看一眼結果??：
![](https://img.uj5u.com/2022/08/31/3206223109222516.png)
# 小結
1、對于**shell腳本**不熟悉的，判斷節點其實還是有一些難度的，這是很重要的一點；
2、**node2(判斷節點)**不能有重復的引數，不管區域的還是**node1(上一級)**傳遞過來的，均不能重復；
3、因為在**node2(判斷節點)**需要將 id 以及 label 繼續往下傳**(to node3),**這時候就需要給 id 以及 label定義一個映射的**out變數(id2、label2)；**
3、node2中重新設定引數麻煩，**需要在 shell 中重新定義變數(id2、label2),**同時需要在shell任務內使用拼接的方式賦值(如：echo '${setValue(id2='$id')}')；
4、**sql型別**以及不同節點下不同引數時常搞錯，不是任何節點都可以接收上級節點引數，以及區域變數與傳遞變數以及全域變數優先級區別及可能造成沖突；
5、DS串列傳參(2.0是不可以的)很雞肋,對于串列傳參又不能在下一級節點做回圈賦值，這點對于DS是有改進的空間的；
DolphinScheduler還有很多可擴展的地方(因為實際需要)，我還做了一些二次開發??，后面會聊...大家期待喲??
# 參與貢獻
隨著國內開源的迅猛崛起，Apache DolphinScheduler 社區迎來蓬勃發展，為了做更好用、易用的調度，真誠歡迎熱愛開源的伙伴加入到開源社區中來，為中國開源崛起獻上一份自己的力量，讓本土開源走向全球，
## 歡迎關注
參與 DolphinScheduler 社區有非常多的參與貢獻的方式，包括：
貢獻第一個PR(檔案、代碼) 我們也希望是簡單的，第一個PR用于熟悉提交的流程和社區協作以及感受社區的友好度，
社區匯總了以下適合新手的問題串列：[https://github.com/apache/dolphinscheduler/issues/5689](https://github.com/apache/dolphinscheduler/issues/5689)
非新手問題串列：[https://github.com/apache/dolphinscheduler/issues?q=is%3Aopen+is%3Aissue+label%3A"volunteer+wanted"](https://github.com/apache/dolphinscheduler/issues?q=is%3Aopen+is%3Aissue+label%3A%22volunteer+wanted%22)
如何參與貢獻鏈接：[https://dolphinscheduler.apache.org/zh-cn/community/development/contribute.html](https://dolphinscheduler.apache.org/zh-cn/community/development/contribute.html)
來吧，DolphinScheduler開源社區需要您的參與，為中國開源崛起添磚加瓦吧，哪怕只是小小的一塊瓦，匯聚起來的力量也是巨大的，
參與開源可以近距離與各路高手切磋，迅速提升自己的技能，如果您想參與貢獻，我們有個貢獻者種子范訓群，可以添加社區Leonard-ds ，手把手教會您( 貢獻者不分水平高低，有問必答，關鍵是有一顆愿意貢獻的心 )，
添加小助手時請說明想參與貢獻，
**來吧，開源社區非常期待您的參與，**
< ???? >

轉載請註明出處，本文鏈接：https://www.uj5u.com/shujuku/503227.html

標籤：大數據

上一篇：5分鐘搞定關系型資料庫到 Flink 資料同步

下一篇：在CentOS 7系統安裝StoneDB資料庫