最近在研究PySpark Streaming的使用,做個實時監控目錄的小程式,請問PySpark Streaming的textFileStream如何只讀取目錄中特定型別檔案的內容,比如目錄test中可能會隨時增加txt檔案和docx檔案,如何實作只有當增加txt檔案時PySpark Streaming才會讀取的功能?
所遇到的問題也跟這個問題差不多https://issues.apache.org/jira/browse/SPARK-8605
已經通過google發現PySpark 中的textFile支持通配符,而textFileStream不支持,但貌似又有人提出了解決方法,參考鏈接如下:
https://issues.apache.org/jira/browse/SPARK-14976
但是沒有搞明白如何解決的,請問大牛們如何處理?感激不盡!
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/61440.html
標籤:Spark
上一篇:小白,docker中運行nodejs網頁保報錯,Object function Object() { [native code] } has no method
下一篇:hbase無法獲取region
