用Spark實作word Count實體——入門大資料實體-有解無憂

參考資料：

https://blog.csdn.net/weixin_43893397/article/details/105289992
https://zhuanlan.zhihu.com/p/75779188
https://blog.csdn.net/u010675669/article/details/81744386
https://blog.csdn.net/weixin_43924642/article/details/89388432

首先將需要的input檔案本地傳至HDFS上（本次程式輸入為words.txt）

用spark-shell直接執行

sc.textFile("/words.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect().foreach(println)

即可看到結果，（PS:注意路徑都是HDFS路徑）

以下這些是別人的寫法,我這運行不了，卡死，

sc.textFile("hdfs://linux139report3:7077/words.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect().foreach(println)

另外sc.textFile的路徑默認是HDFS路徑，也可以用本地路徑（測驗通過，但有warning）

sc.textFile("file://home/mr/words.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect().foreach(println)

也可以指定HDFS路徑，測驗通過

sc.textFile("hdfs:///words.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect().foreach(println)

可以將結果輸出到HDFS中

sc.textFile("/words.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).saveAsTextFile("/out")

運行之后在HDFS中的/out看到計算結果

2、在本地IDEA上撰寫程式，打包到集群上運行

準備好版本

IDEA 2019.3

Scala插件scala-intellij-bin-2019.3.23.zip（不太清楚有沒有用，但我裝了）

ScalaSDK 2.11.8（https://www.scala-lang.org/download/2.11.8.html）

安裝程序可參考

https://blog.csdn.net/u013973379/article/details/82826034

（以下是我的安裝程序）

下載Scala插件并安裝（我無法在線自動安裝，官網上下載下來手動安裝了，結果如下）

建立專案檔案

修改pom.xml

一般來說，這兩項我們是必須加上的

<properties>
  <spark.version>2.2.1</spark.version>
  <scala.version>2.11.8</scala.version>
</properties>


<dependencies>
  <dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_2.11</artifactId>
    <version>${spark.version}</version>
  </dependency>
  <dependency>
    <groupId>org.apache.maven.plugins</groupId>
    <artifactId>maven-resources-plugin</artifactId>
    <version>2.4.3</version>
  </dependency>

<properties>
<spark.version>2.2.1</spark.version>
<scala.version>2.11.8</scala.version>
</properties>

<dependencies>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.11</artifactId>
<version>${spark.version}</version>
</dependency>
<dependency>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-resources-plugin</artifactId>
<version>2.4.3</version>
</depen