hadoop 里面有這個引數 mapreduce.input.pathFilter.class, 來實作檔案的過濾功能
現在使用spark,我在官方檔案提供的配置里面沒有找到可以實作檔案過濾功能的配置
業務需求是 : spark需要讀取hdfs上面的某些資料目錄,但是這個資料目錄下面并不是所有的檔案我都希望計算
比如說.tmp結尾的臨時檔案,正在復制的檔案,以某些后綴結尾的檔案
或者是,這個目錄下面存盤的是一天的資料,但是我只想計算其中某個小時的資料(資料屬于哪個小時可以根據時間區分出來)
請問下,spark有沒有辦法實作這樣的功能呢?
如果有的話,是哪些配置或者是哪些操作可以做到呢? 希望能給一些提示
謝謝大家!
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/45798.html
標籤:Spark
