場景:
對每天的業務資料進行增量歸檔,即對hive 現有的執行 insert into table 操作,hive 每次insert 不會將檔案append 到之前的檔案中,而是新生成了一個問題,例如:
插入之前檔案:000000_0
插入之后檔案:000000_0
000000_0_copy_1
多次插入會更多。
官方提供了關于如何merge 這些小檔案的配置如下:
<property>
<name>hive.merge.mapfiles</name>
<value>true</value>
</property>
<property>
<name>hive.merge.mapredfiles</name>
<value>true</value>
</property>
<property>
<name>hive.merge.smallfiles.avgsize</name>
<value>134217728</value>
</property>
<property>
但依然沒有起到作用,檔案個數還是在繼續累加
求指導是否還有其他的配置?
uj5u.com熱心網友回復:
建立一個臨時表作為中介,然后join做增量不知道會不會解決這個問題uj5u.com熱心網友回復:
解決了么?同求uj5u.com熱心網友回復:
建一個PK表保存每天新資料的PK,每次insert前比較,PK存在的洗掉舊資料,insert新資料轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/96638.html
標籤:數據倉庫
