本文主要介紹Transwarp的etl工具——Transporter，本文依托于星環的官方檔案，通過一個簡單的實體來讓大家熟悉Transporter的使用，關注專欄《Transwarp系列》了解更多Transwarp的技術知識~

一、Transporter簡介

1.1 簡介

1.2 Transporter的特點

二、Transporter實體

2.1 案例一

2.1.1 業務需求

2.1.2 業務實作

2.2 案例二

2.2.1 業務需求

2.2.2 業務實作

一、Transporter簡介

1.1 簡介

Transporter是一個資料etl工具，支持從不同資料源獲取資料，對資料的復雜轉換操作，并最終將資料落地成不同格式，Transporter左側連接資料源，如關系型資料庫，右側連接目標系統，如Inceptor，支持用戶將資料從RDBMS遷移到Hadoop，再進行資料分析和挖掘作業，

1.2 Transporter的特點

1、支持豐富的資料源

Transporter支持跨集群的資料匯入，并且可直接從Oracle/DB2等傳統關系資料庫將資料匯入至TDH,同Sqoop相比，可以在不失效率的情況下簡化繁瑣的資料流定義步驟以及復雜的型別轉換等問題，支持匯入CSV、定長檔案、JSON、XML等檔案，同時支持匯入OGG、Shareplex、DataStage產生的增量檔案，實作準實時的資料同步，此外，還支持通過Kafka等方式讀入流資料，

2、支持豐富的匯出格式

用戶可以通過Transporter直接匯出資料至傳統關系資料庫、ElasticSearch，以及實作跨集群匯出，Transporter支持多種資料匯出格式，如CSV、JSON、XML，并且支持Inceptor中所有型別的表：普通ORC、ORC交易表、Holodesk、Hbase、Hyperdrive，

3、支持多種資料轉換操作

提供多種常見的資料轉換操作，幫助實作資料的清洗，加工，其中的關鍵操作有：欄位映射功能、資料關聯、集合操作、聚合操作、過濾、去重，

4、輕量的應用

采用Web互動的方式，實作資料流的設計，Transporter只是用于資料流設計和調度作業流的服務平臺，本身不包含執行引擎，不負責任務實作，而是將作業任務提交到Inceptor或者其他計算引擎來完成，因此是極為輕量的應用，

5、高度并發

利用分布式集群進行資料流的并行計算，自動分析資料流依賴，實作資料流作業中最大可能的并行化，

6、高吞吐

擅長大資料量的同步，峰值資料吞吐率可達到40M/秒/節點，

7、資料質量和安全保障

提供事務級別的資料同步，確保目標表與原表擁有相同的資料一致性，另外還提供了完整的權限控制機制，用于保證資料的安全，