Hadoop HDFS 如何管理 JSON檔案?
假設一些 JSON 檔案存盤在 HDFS 中,并且這些 JSON 中的每一個都與其他 JSON 不同,我想輸出通過查詢創建的 JSON。像MongoDB。
例如,我向您展示了這個偽代碼:
FOR EACH json IN hdfs:
name = json.NAME
IF json HAS this_attribute:
x = json.this_attribute.value
CREATE A CSV THAT CONTAINS ALL INFO REQUIRED (name, x)
RETURN CSV
在 MongoDB 中,生成此輸出是最容易的。但我進入了一個不可能使用 MongoDB的專案。
uj5u.com熱心網友回復:
Hadoop/HDFS 除了放置它們的塊外,不會“管理”任何檔案。
如果要對資料運行查詢,則需要使用 Hive、Presto、Drill、Spark、Flink 等工具,或者您可以更改檔案上傳程序以寫入 HBase。
這些 JSON 中的每一個都與其他 JSON 不同
大多數查詢工具更喜歡半結構化資料,因此最好讓 JSON 的鍵相似。如果你真的需要存盤隨機的 JSON 物件,那么最好使用像 Mongo 這樣的檔案資料庫。(Hadoop 不是 Mongo 的替代品)
uj5u.com熱心網友回復:
我認為與 HDFS 一起使用的最簡單的工具是spark。它為您提供了許多豐富的工具,包括許多豐富的檔案格式,它們的性能比將文本資訊存盤為文本、CSV 或 JSON 要好得多。我建議您在處理大資料時使用非文本檔案格式進行調查。
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/360147.html
上一篇:ThreadSanitizer-如何解釋ReadvsPreviousWrite警告
下一篇:如何避免在云上寫入Hive暫存區
