我被告知,HDFS由分成若干塊的檔案組成,這些塊的大小為128M。
由于復制因子是3,在我看來,每個檔案的大小應該不超過128M * 3 = 384M。
然而,當NN網站顯示由Hive生成的檔案幾乎是3GB。一些由impala生成的檔案可能超過30GB。
誰能幫助我理解這個問題...... 謝謝你的幫助。
uj5u.com熱心網友回復:
除非你真的在優化,否則你真的不必擔心塊和它們的存盤位置;Hadoop為你管理所有這些東西。你所強調的size列是所有塊的大小總和,不包括復制。
轉載請註明出處,本文鏈接:https://www.uj5u.com/gongcheng/318973.html
標籤:
上一篇:按平均值排序的散點圖

