我正在從不同的 API 獲取 JSON 資料。我想將它們存盤在 HDFS 中,然后在 MongoDB 中使用它們。
我是否需要將它們轉換為 avro、序列檔案、parquet 等,或者我可以簡單地將它們存盤為純 JSON 并稍后將它們加載到資料庫中?
我知道如果我將它們轉換為另一種格式,它們會更好地分發和壓縮,但是我如何才能將 avro 檔案上傳到 MongoDB?MongoDB 只接受 JSON。我應該再做一步從 avro 讀取它們并將它們轉換為 JSON 嗎?
uj5u.com熱心網友回復:
您要獲取的資料有多大?如果每個檔案小于 128MB(有或沒有壓縮),它真的不應該在 HDFS 中。
要回答這個問題,格式并不重要。您可以使用 SparkSQL 讀取任何 Hadoop 格式(或 JSON)以加載到 Mongo(反之亦然)。
或者您可以先將資料寫入 Kafka,然后使用 Kafka Connect 等行程同時寫入 HDFS 和 Mongo。
轉載請註明出處,本文鏈接:https://www.uj5u.com/yidong/455963.html
