簡介
Sqoop是一款開源工具,主要用于Hadoop(HDFS、Hbase、HIVE)與傳統資料庫(Mysql、Oracle、Postgresql)間進行資料的傳遞,
它可以將一個關系型資料庫中的資料匯入到Hadoop的HDFS中,也可以將HDFS的資料匯入到關系型資料庫中

- 背景

Sqoop最早是作為Hadoop的一個第三方模塊,后來為了讓開發者能夠快速部署,也為了讓開發人員能夠更加快速迭代開發,Sqoop獨立成為了一個Apache的專案
Sqoop專為大資料批量傳輸設計,能夠分割資料集并創建Hadoop任務來處理每個區塊,
-
基本原理
-
從關系型資料庫到Hadoop
- 用戶的Sqoop腳本最侄訓編程提交到YARN上的一個個map任務
- 通過Sqoop,用戶可以將資料從RDB抽取至HDFS,輸入端是關系型資料庫中的某張表,Sqoop會一行一行的把資料從這張表里讀出來寫到HDFS;輸出端是HDFS上關于這個表的檔案集合
注意:只有Map沒有Reduce
? 由于整個抽取ETL程序是并行化的,因此輸出端會有多個檔案,輸出的檔案可以指定分隔符、換行符等于分界符,
-

轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/288082.html
標籤:大數據
上一篇:使用 Apache Superset 可視化 ClickHouse 資料
下一篇:資料庫子查詢 含義-分類-陳述句
