在通常的情況下,我們使用spark讀取檔案,會呼叫
sparkContext.textFile()方法,但是當我們的輸入檔案為大量的小檔案時,這種方式讀取效率比較低,會為每一個小檔案產生一次task。于是我在官方查詢,得知還有一個檔案輸入介面叫做:wholeTextFiles,官網解釋如下:

但是使用這個介面讀取檔案后,幾個檔案的內容會被拼接成一個string作為rdd回傳,split切割導致欄位混亂,有大神用過這個介面嗎?
uj5u.com熱心網友回復:
這個就相當于遍歷某個檔案夾下得所有資料 形成key-value得形式 key是路徑 value就是檔案內容!uj5u.com熱心網友回復:
同學你好。java 上面可以用 StringUtils.split(content,SeparatorUtil.separator_next) 得到一個陣列, SeparatorUtil.separator_next 是 ‘\n’。希望能夠幫到你。轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/50622.html
標籤:Spark
