歡迎訪問我的GitHub
https://github.com/zq2599/blog_demos
內容:所有原創文章分類匯總及配套原始碼,涉及Java、Docker、Kubernetes、DevOPS等;
本篇概覽
本文是《Flink的DataSource三部曲》的終篇,前面都是在學習Flink已有的資料源功能,但如果這些不能滿足需要,就要自定義資料源(例如從資料庫獲取資料),也就是今天實戰的內容,如下圖紅框所示:

Flink的DataSource三部曲文章鏈接
- 《Flink的DataSource三部曲之一:直接API》
- 《Flink的DataSource三部曲之二:內置connector》
- 《Flink的DataSource三部曲之三:自定義》
環境和版本
本次實戰的環境和版本如下:
- JDK:1.8.0_211
- Flink:1.9.2
- Maven:3.6.0
- 作業系統:macOS Catalina 10.15.3 (MacBook Pro 13-inch, 2018)
- IDEA:2018.3.5 (Ultimate Edition)
在服務器上搭建Flink服務
- 前面兩章的程式都是在IDEA上運行的,本章需要通過Flink的web ui觀察運行結果,因此要單獨部署Flink服務,我這里是在CentOS環境通過docker-compose部署的,以下是docker-compose.yml的內容,用于參考:
version: "2.1"
services:
jobmanager:
image: flink:1.9.2-scala_2.12
expose:
- "6123"
ports:
- "8081:8081"
command: jobmanager
environment:
- JOB_MANAGER_RPC_ADDRESS=jobmanager
taskmanager1:
image: flink:1.9.2-scala_2.12
expose:
- "6121"
- "6122"
depends_on:
- jobmanager
command: taskmanager
links:
- "jobmanager:jobmanager"
environment:
- JOB_MANAGER_RPC_ADDRESS=jobmanager
taskmanager2:
image: flink:1.9.2-scala_2.12
expose:
- "6121"
- "6122"
depends_on:
- jobmanager
command: taskmanager
links:
- "jobmanager:jobmanager"
environment:
- JOB_MANAGER_RPC_ADDRESS=jobmanager
- 下圖是我的Flink情況,有兩個Task Maganer,共八個Slot全部可用:

原始碼下載
如果您不想寫代碼,整個系列的原始碼可在GitHub下載到,地址和鏈接資訊如下表所示(https://github.com/zq2599/blog_demos):
| 名稱 | 鏈接 | 備注 |
|---|---|---|
| 專案主頁 | https://github.com/zq2599/blog_demos | 該專案在GitHub上的主頁 |
| git倉庫地址(https) | https://github.com/zq2599/blog_demos.git | 該專案原始碼的倉庫地址,https協議 |
| git倉庫地址(ssh) | [email protected]:zq2599/blog_demos.git | 該專案原始碼的倉庫地址,ssh協議 |
這個git專案中有多個檔案夾,本章的應用在flinkdatasourcedemo檔案夾下,如下圖紅框所示:

準備完畢,開始開發;
實作SourceFunctionDemo介面的DataSource
- 從最簡單的開始,開發一個不可并行的資料源并驗證;
- 實作SourceFunction介面,在工程flinkdatasourcedemo中增加SourceFunctionDemo.java:
package com.bolingcavalry.customize;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.source.SourceFunction;
import org.apache.flink.streaming.api.windowing.time.Time;
public class SourceFunctionDemo {
public static void main(String[] args) throws Exception {
final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
//并行度為2
env.setParallelism(2);
DataStream<Tuple2<Integer,Integer>> dataStream = env.addSource(new SourceFunction<Tuple2<Integer, Integer>>() {
private volatile boolean isRunning = true;
@Override
public void run(SourceContext<Tuple2<Integer, Integer>> ctx) throws Exception {
int i = 0;
while (isRunning) {
ctx.collect(new Tuple2<>(i++ % 5, 1));
Thread.sleep(1000);
if(i>9){
break;
}
}
}
@Override
public void cancel() {
isRunning = false;
}
});
dataStream
.keyBy(0)
.timeWindow(Time.seconds(2))
.sum(1)
.print();
env.execute("Customize DataSource demo : SourceFunction");
}
}
- 從上述代碼可見,給addSource方法傳入一個匿名類實體,該匿名類實作了SourceFunction介面;
- 實作SourceFunction介面只需實作run和cancel方法;
- run方法產生資料,這里為了簡答操作,每隔一秒產生一個Tuple2實體,由于接下來的算子中有keyBy操作,因此Tuple2的第一個欄位始終保持著5的余數,這樣可以多幾個key,以便分散到不同的slot中;
- 為了核對資料是否準確,這里并沒有無限發送資料,而是僅發送了10個Tuple2實體;
- cancel是job被取消時執行的方法;
- 整體并行度顯式設定為2;
- 編碼完成后,執行mvn clean package -U -DskipTests構建,在target目錄得到檔案flinkdatasourcedemo-1.0-SNAPSHOT.jar;
- 在Flink的web UI上傳flinkdatasourcedemo-1.0-SNAPSHOT.jar,并指定執行類,如下圖紅框所示:

-
- 任務執行完成后,在Completed Jobs頁面可以看到,DataSource的并行度是1(紅框),對應的SubTask一共發送了10條記錄(藍框),這和我們的代碼是一致的;

- 再來看消費的子任務,如下圖,紅框顯示并行度是2,這和前面代碼中的設定是一致的,藍框顯示兩個子任務一共收到10條資料記錄,和上游發出的數量一致:

- 接下來嘗試多并行度的DataSource;
實作ParallelSourceFunction介面的DataSource
- 如果自定義DataSource中有復雜的或者耗時的操作,那么增加DataSource的并行度,讓多個SubTask同時進行這些操作,可以有效提升整體吞吐量(前提是硬體資源充裕);
- 接下來實戰可以并行執行的DataSource,原理是DataSoure實作ParallelSourceFunction介面,代碼如下,可見和SourceFunctionDemo幾乎一樣,只是addSource方發入參不同,該入參依然是匿名類,不過實作的的介面變成了ParallelSourceFunction:
package com.bolingcavalry.customize;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.source.ParallelSourceFunction;
import org.apache.flink.streaming.api.windowing.time.Time;
public class ParrelSourceFunctionDemo {
public static void main(String[] args) throws Exception {
final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
//并行度為2
env.setParallelism(2);
DataStream<Tuple2<Integer,Integer>> dataStream = env.addSource(new ParallelSourceFunction<Tuple2<Integer, Integer>>() {
private volatile boolean isRunning = true;
@Override
public void run(SourceContext<Tuple2<Integer, Integer>> ctx) throws Exception {
int i = 0;
while (isRunning) {
ctx.collect(new Tuple2<>(i++ % 5, 1));
Thread.sleep(1000);
if(i>9){
break;
}
}
}
@Override
public void cancel() {
isRunning = false;
}
});
dataStream
.keyBy(0)
.timeWindow(Time.seconds(2))
.sum(1)
.print();
env.execute("Customize DataSource demo : ParallelSourceFunction");
}
}
- 編碼完成后,執行mvn clean package -U -DskipTests構建,在target目錄得到檔案flinkdatasourcedemo-1.0-SNAPSHOT.jar;
- 在Flink的web UI上傳flinkdatasourcedemo-1.0-SNAPSHOT.jar,并指定執行類,如下圖紅框所示:

5. 任務執行完成后,在Completed Jobs頁面可以看到,如今DataSource的并行度是2(紅框),對應的SubTask一共發送了20條記錄(藍框),這和我們的代碼是一致的,綠框顯示兩個SubTask的Task Manager是同一個:

6. 為什么DataSource一共發送了20條記錄?因為每個SubTask中都有一份ParallelSourceFunction匿名類的實體,對應的run方法分別被執行,因此每個SubTask都發送了10條;
7. 再來看消費資料的子任務,如下圖,紅框顯示并行度與代碼中設定的數量是一致的,藍框顯示兩個SubTask一共消費了20條記錄,和資料源發出的記錄數一致,另外綠框顯示兩個SubTask的Task Manager是同一個,而且和DataSource的TaskManager是同一個,因此整個job都是在同一個TaskManager進行的,沒有跨機器帶來的額外代價:

8. 接下來要實踐的內容,和另一個重要的抽象類有關;
繼承抽象類RichSourceFunction的DataSource
- 對RichSourceFunction的理解是從繼承關系開始的,如下圖,SourceFunction和RichFunction的特性最終都體現在RichSourceFunction上,SourceFunction的特性是資料的生成(run方法),RichFunction的特性是對資源的連接和釋放(open和close方法):

2. 接下來開始實戰,目標是從MySQL獲取資料作為DataSource,然后消費這些資料;
3. 請提前準備好可用的MySql資料庫,然后執行以下SQL,創建庫、表、記錄:
DROP DATABASE IF EXISTS flinkdemo;
CREATE DATABASE IF NOT EXISTS flinkdemo;
USE flinkdemo;
SELECT 'CREATING DATABASE STRUCTURE' as 'INFO';
DROP TABLE IF EXISTS `student`;
CREATE TABLE `student` (
`id` int(11) unsigned NOT NULL AUTO_INCREMENT,
`name` varchar(25) COLLATE utf8_bin DEFAULT NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=5 DEFAULT CHARSET=utf8 COLLATE=utf8_bin;
INSERT INTO `student` VALUES ('1', 'student01'), ('2', 'student02'), ('3', 'student03'), ('4', 'student04'), ('5', 'student05'), ('6', 'student06');
COMMIT;
- 在pom.xml中增加mysql依賴:
<dependency>
<groupId>mysql</groupId>
<artifactId>mysql-connector-java</artifactId>
<version>5.1.34</version>
</dependency>
- 新增MySQLDataSource.java,內容如下:
package com.bolingcavalry.customize;
import com.bolingcavalry.Student;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.streaming.api.functions.source.RichSourceFunction;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
public class MySQLDataSource extends RichSourceFunction<Student> {
private Connection connection = null;
private PreparedStatement preparedStatement = null;
private volatile boolean isRunning = true;
@Override
public void open(Configuration parameters) throws Exception {
super.open(parameters);
if(null==connection) {
Class.forName("com.mysql.jdbc.Driver");
connection = DriverManager.getConnection("jdbc:mysql://192.168.50.43:3306/flinkdemo?useUnicode=true&characterEncoding=UTF-8", "root", "123456");
}
if(null==preparedStatement) {
preparedStatement = connection.prepareStatement("select id, name from student");
}
}
/**
* 釋放資源
* @throws Exception
*/
@Override
public void close() throws Exception {
super.close();
if(null!=preparedStatement) {
try {
preparedStatement.close();
} catch (Exception exception) {
exception.printStackTrace();
}
}
if(null==connection) {
connection.close();
}
}
@Override
public void run(SourceContext<Student> ctx) throws Exception {
ResultSet resultSet = preparedStatement.executeQuery();
while (resultSet.next() && isRunning) {
Student student = new Student();
student.setId(resultSet.getInt("id"));
student.setName(resultSet.getString("name"));
ctx.collect(student);
}
}
@Override
public void cancel() {
isRunning = false;
}
}
- 上面的代碼中,MySQLDataSource繼承了RichSourceFunction,作為一個DataSource,可以作為addSource方法的入參;
- open和close方法都會被資料源的SubTask呼叫,open負責創建資料庫連接物件,close負責釋放資源;
- open方法中直接寫死了資料庫相關的配置(不可取);
- run方法在open之后被呼叫,作用和之前的DataSource例子一樣,負責生產資料,這里是用前面準備好的preparedStatement物件直接去資料庫取資料;
- 接下來寫個Demo類使用MySQLDataSource:
package com.bolingcavalry.customize;
import com.bolingcavalry.Student;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
public class RichSourceFunctionDemo {
public static void main(String[] args) throws Exception {
final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
//并行度為2
env.setParallelism(2);
DataStream<Student> dataStream = env.addSource(new MySQLDataSource());
dataStream.print();
env.execute("Customize DataSource demo : RichSourceFunction");
}
}
- 從上述代碼可見,MySQLDataSource實體傳入addSource方法即可創建資料集;
- 像之前那樣,編譯構建、提交到Flink、指定任務類,即可開始執行此任務;
- 執行結果如下圖,DataSource的并行度是1,一共發送六條記錄,即student表的所有記錄:

14. 處理資料的SubTask一共兩個,各處理三條訊息:

15. 由于代碼中對資料集執行了print(),因此在TaskManager控制臺看到資料輸出如下圖紅框所示:

關于RichParallelSourceFunction
- 實戰到了這里,還剩RichParallelSourceFunction這個抽象類我們還沒有嘗試過,但我覺得這個類可以不用在文中多說了,咱們把RichlSourceFunction和RichParallelSourceFunction的類圖放在一起看看:

2. 從上圖可見,在RichFunction繼承關系上,兩者一致,在SourceFunction的繼承關系上,RichlSourceFunction和RichParallelSourceFunction略有不同,RichParallelSourceFunction走的是ParallelSourceFunction這條線,而SourceFunction和ParallelSourceFunction的區別,前面已經講過了,因此,結果不言而喻:繼承RichParallelSourceFunction的DataSource的并行度是可以大于1的;
3. 讀者您如果有興趣,可以將前面的MySQLDataSource改成繼承RichParallelSourceFunction再試試,DataSource的并行度會超過1,但是絕不是只有這一點變化,DAG圖顯示Flink還會做一些Operator Chain處理,但這不是本章要關注的內容,只能說結果是正確的(兩個DataSource的SubTask,一共發送12條記錄),建議您試試;
至此,《Flink的DataSource三部曲》系列就全部完成了,好的開始是成功的一半,在拿到資料后,后面還有很多知識點要學習和掌握,接下來的文章會繼續深入Flink的奇妙之旅;
歡迎關注公眾號:程式員欣宸
微信搜索「程式員欣宸」,我是欣宸,期待與您一同暢游Java世界...
https://github.com/zq2599/blog_demos
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/205573.html
標籤:Java
下一篇:Java基本概念:方法
