使用Apache Spark,我們可以在保存為 Parquet 格式時將資料幀分割成單獨的檔案。
在撰寫 Parquet 檔案的方式中,每個磁區包含多個行組,每個行組包括與每個組相關的列統計資訊(例如,最小/最大值,以及NULL值的數量)。
現在,在某些情況下,組織 Parquet 檔案以使相關資料一起出現在一個或多個行組中似乎是理想的。這將是每個磁區檔案中的二級磁區(構成第一級)。
這可以使用例如pyarrow來實作,但是我們如何使用 Spark 等分布式 SQL 引擎來做到這一點?
uj5u.com熱心網友回復:
除了磁區之外,您還可以對資料進行排序,以將相關資料組合在一組有限的磁區中。來自Databricks的宣告:
Z-Ordering 是一種將相關資訊放在同一組檔案中的技術
(
df
.write.option("header", True)
.orderBy(df.col_1.desc())
.partitionBy("col_2")
)
轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/416379.html
標籤:
上一篇:SparkStructuredStreaming在帶有Trigger.Once的Databricks上沒有顯示輸出
