我已經在 RDD 中有句子,輸出如下所示:
RT @DougJ7777:如果英國贏得#Eurovision,那么我們必須重新加入歐盟。它在規則中。#Eurovision2018 RT @Mystificus:當然我今晚會看#eurovision。畢竟,2億人不會錯,不是嗎?呃...????... RT @KlNGNEUER:歐洲人取笑歐洲電視網時的我 VS 美國人取笑歐洲電視網時的我
#Eurovision #EuroSemi2 今晚 2018 年歐洲歌唱大賽!!!!!!星期六與 bae 一起發冷,舉起手來誰不看歐洲電視網...... @AndrewDawes71 @SuzanneEvans1 @ConstantinStHe1 這條推文是針對其他國家的公民參加的......期待今晚@Eurovision @bbceurovision 并支持競爭激烈的@surieofficial。噓…… RT @Jem_Collins:媒體和新聞界的朋友們,我需要你們在今晚的#Eurovision 期間做點什么。那就是喝一杯……今晚和朋友們一起為動漫和歐洲電視網做準備!??
但是當我嘗試用“。”分割它時。和“,”我只使用以下代碼得到一個空的txt:
JavaRDD<String> sentences= lines.flatMap( line -> Arrays.asList(line.split(".")).iterator());
JavaRDD<String> words = sentences.flatMap( line -> Arrays.asList(line.split(" ")).iterator());
其中 lines 是帶有螢屏截圖內容的 RDD。
在那之后,我該如何構建二元組?
重現示例:
SparkConf conf = new SparkConf().setAppName("BiGramsApp");
JavaSparkContext sparkContext = new JavaSparkContext(conf);
JavaRDD<String> inputFile = sparkContext.textFile(input);
JavaRDD<String> sentences = inputFile.flatMap( line -> Arrays.asList(line.split(".")).iterator());
JavaRDD<String> words = sentences.flatMap( line -> Arrays.asList(line.split(" ")).iterator());
words.saveAsTextFile(outputDir);
輸入檔案將是一個包含任何句子的 .txt,但您可以嘗試使用開頭寫入的字串
uj5u.com熱心網友回復:
拆分的解決方案是在"[.]"或之間添加模式"[ ]"
轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/432895.html
上一篇:如何根據列值創建范圍列?
