本期與大家分享的是,小北精心整理的大資料學習筆記,資料采集工具DataX 的詳細介紹,希望對大家能有幫助,喜歡就給點鼓勵吧,記得三連哦!歡迎各位大佬評論區指教討論!
💜🧡💛制作不易,各位大佬們給點鼓勵!
🧡💛💚點贊👍 ? 收藏? ? 關注?
💛💚💙歡迎各位大佬指教,一鍵三連走起!
一、DataX 簡介
DataX 是阿里巴巴集團內被廣泛使用的離線資料同步工具/平臺,實作包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各種異構資料源之間高效的資料同步功能,
DataX本身作為資料同步框架,將不同資料源的同步抽象為從源頭資料源讀取資料的Reader插件,以及向目標端寫入資料的Writer插件,理論上DataX框架可以支持任意資料源型別的資料同步作業,同時DataX插件體系作為一套生態系統, 每接入一套新資料源,該新加入的資料源即可實作和現有的資料源互通,
DataX開源地址 https://github.com/alibaba/DataX
DataX 3.0六大核心優勢
二、DataX 架構
github開源架構介紹鏈接地址: https://github.com/alibaba/DataX/blob/master/introduction.md



三、 DataX的安裝
DataX不需要依賴其他服務,直接上傳、解壓、安裝、配置環境變數即可
也可以直接在windows上解壓
四、DataX的使用
DataX的使用檔案說明 DataX3.0插件體系 :
https://github.com/alibaba/DataX/blob/master/introduction.md#%E4%B8%89-datax30%E6%8F%92%E4%BB%B6%E4%BD%93%E7%B3%BB
1、stream2stream
撰寫組態檔stream2stream.json
# stream2stream.json
{
"job": {
"content": [
{
"reader": {
"name": "streamreader",
"parameter": {
"sliceRecordCount": 10,
"column": [
{
"type": "long",
"value": "10"
},
{
"type": "string",
"value": "hello,你好,世界-DataX"
}
]
}
},
"writer": {
"name": "streamwriter",
"parameter": {
"encoding": "UTF-8",
"print": true
}
}
}
],
"setting": {
"speed": {
"channel": 5
}
}
}
}
執行同步任務
datax.py stream2stream.json
執行結果

2 、mysql2mysql
MysqlReader 插件檔案 :https://github.com/alibaba/DataX/blob/master/mysqlreader/doc/mysqlreader.md
DataX MysqlWriter :https://github.com/alibaba/DataX/blob/master/mysqlwriter/doc/mysqlwriter.md
需要新建student2資料庫,并創建student表
撰寫組態檔mysql2mysql.json
{
"job": {
"content": [
{
"reader": {
"name": "mysqlreader",
"parameter": {
"username": "root",
"password": "123456",
"column": [
"id",
"name",
"age",
"gender",
"clazz",
"last_mod"
],
"splitPk": "age",
"connection": [
{
"table": [
"student"
],
"jdbcUrl": [
"jdbc:mysql://master:3306/student"
]
}
]
}
},
"writer": {
"name": "mysqlwriter",
"parameter": {
"writeMode": "insert",
"username": "root",
"password": "123456",
"column": [
"id",
"name",
"age",
"gender",
"clazz",
"last_mod"
],
"preSql": [
"truncate student2"
],
"connection": [
{
"jdbcUrl": "jdbc:mysql://master:3306/student2?useUnicode=true&characterEncoding=utf8",
"table": [
"student2"
]
}
]
}
}
}
],
"setting": {
"speed": {
"channel": 6
}
}
}
}
執行同步任務
datax.py mysql2mysql.json
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/325557.html
標籤:其他
上一篇:畢業設計——SSM電影院購票系統(SSM畢業設計)(電影購票系統畢業設計)
下一篇:測驗報告標準模板(一)
