我有一個問題,是否可以使用水槽對資料執行 ETL。更具體地說,我在 spoolDir 上配置了包含 CSV 檔案的水槽,我想在將這些檔案存盤到 Hadoop 之前將它們轉換為 Parquet 檔案。可能嗎 ?
如果不可能,您會建議在存盤到 Hadoop 之前轉換它們還是在 Hadoop 上使用 spark 轉換它們?
uj5u.com熱心網友回復:
我可能會建議使用nifi來移動檔案。這是有關如何使用Parquet執行此操作的具體教程。我覺得 nifi 是 Apache Flume 的替代品。
Flume 部分答案:(不是 Parquet)如果您在格式上很靈活,則可以使用 avro 水槽。您可以使用蜂巢水槽,它將創建一個 ORC 格式的表格。(您可以查看它是否也允許在定義中使用鑲木地板,但我聽說 ORC 是唯一受支持的格式。)
您可能會使用一些簡單的腳本來使用 hive 將資料從 Orc 表移動到 Parquet 表。(將檔案轉換為您要求的鑲木地板檔案。)
轉載請註明出處,本文鏈接:https://www.uj5u.com/gongcheng/445658.html
