代碼如下
import Doc
doc = Doc.Doc()
def fun(text):
text = text.strip()
doc.SplitWord("", text)
words = sc.textFile("1.txt")
words.map(fun).saveAsTextFile(split_out)
Doc分詞軟體中加載了一個自定義詞典
可是doc.SplitWord("", text)分詞結果并沒有把我自自定義詞典中的詞分出來
而 當 把doc物件放到fun里面時, 是可以正確分出來的, 但是 由于加載的自定義詞表非常大,源資料也非常大, 跑的時候spark本身出錯了, 而且處理速度奇慢 該怎么改正呢? 多謝
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/92948.html
標籤:Spark
