文章目錄

選擇題總結 (89個題)
第1章大資料技術概述 (10個題)
第2章 Scala 語言基礎 (20個題)
第3章 Spark的設計與運行原理 (10個題)
第4章 Spark環境搭建和使用方法 (10個題)
第5章 RDD編程 (10個題)
第6章 Spark SQL (10個題)
第7章 Spark Streaming (11個題)
第8章 Spark MLlib (8個題)

選擇題總結 (89個題)

第1章大資料技術概述 (10個題)

?1.1 大資料技術及其代表性的軟體種類很多，不同的技術有其不同應用場景，都對應著不同的大資料計算模式，請問軟體產品Pregel主要應用于以下哪種計算模式？ B.圖計算

A.流計算
B.圖計算
C.查詢分析計算
D.批處理計算

1.2 Hadoop生態系統中用于構建資料倉庫并允許用戶輸入SQL陳述句進行查詢的功能組件是? C. Hive

A.Flume
B.Pregel
C.Hive
D.Spark

1.3 ?Hadoop的生態系統組件之一Sqoop的功能是? D.交換資料

A.負責集群資源調度管理的組件
B.用來存盤非結構化和半結構化的松散資料
C.提供高可靠性、高可用、分布式的海量日志采集
D.用來在Hadoop和關系資料庫之間的交換資料，改進資料的互操作性

1.4 以下哪一項不是Hadoop的缺點？ B.分布存盤到多臺機器

A.計算延遲高
B.資料檔案被分布存盤到多臺機器上
C.磁盤I/O開銷大
D.計算表達能力有限

1.5 用戶在使用HDFS時，仍然可以像普通檔案系統那樣用檔案名去訪問檔案，以下哪個選項是正確的訪問方式？ D. 三短一長選最長(

?A.把檔案名發送給名稱節點，根據檔案名直接在名稱節點上獲取資料
B.把檔案名發送給資料節點，根據檔案名直接在資料節點上獲取資料
C.以上說法都不對
D.把檔案名發送給名稱節點，根據檔案名在名稱節點上找到資料塊的實際存盤資訊，客戶端再到資料節點上獲取資料

1.6 目前學術界和業界比較認可的關于大資料的四個特點是? ABCD

?A.資料型別多
B.價值密度低
C.資料量大
D.處理速度快

1.7 Hadoop兩大核心組成部分是什么？ CD

?A.資源調度管理框架YARN
B.分布式協作服務Zookeeper
C.分布式計算框架MapReduce
D.分布式檔案系統HDFS

1.8.?YARN是負責集群資源調度管理的組件，不同的計算框架統一運行在YARN框架之上，具有哪些優點： ABCD

?A.計算資源按需伸縮
B.大大降低了運維成本
C.不同負載應用混搭，集群利用率高
D.共享底層存盤，避免資料跨集群遷移

1.9 關于Hadoop生態系統中HBase與其它部分的關系，以下說法正確的有： ABCD

?A.HBase利用MapReduce來處理HBase中的海量資料，實作高性能計算
B.利用Pig和Hive為HBase提供了高層語言支持
C.使用HDFS作為高可靠的底層存盤，利用廉價集群提供海量資料存盤能力
D.使用Sqoop為HBase提供了高效便捷的RDBMS資料匯入功能

1.10.Spark的設計遵循“一個軟體堆疊滿足不同應用場景”的理念，逐漸形成了一套完整的生態系統，可以支持以下哪些操作計算： ABCD

?A.流式計算（Spark Streaming）
B.SQL即席查詢（Spark SQL）
C.圖計算（GraphX）
D.機器學習（MLlib）

第2章 Scala 語言基礎 (20個題)

2.1 下面輸出與其他不一致的是？ D

A.print("Hello World\n")
B.println("Hello World")
C.printf("Hello %s", "World\n")
D.val w = "World" ; println("Hello $w")

2.2 有關運算子優先級的描述不正確的是？ A

A.+的優先級高于！
B.%的優先級高于+
C.>的優先級高于&
D.*=的優先級低于+

2.3 對集合(Set)進行操作"Set(2, 0, 1) + 1 + 1 - 1"之后的結果為？ C

A.以上均不正確
B.Set(2, 0, 1, 1)
C.Set(2, 0)
D.Set(2, 0, 1)

2.4 以下關于閉包描述錯誤的是？ D

A.對于def mulBy(factor: Double) = (x: Double) => factor * x; val triple = mulBy(3);,函式triple是一個閉包
B.閉包是一個函式，其回傳值依賴于宣告在函式包部的一個或多個變數
C.通常來講，可以將閉包看作是可以訪問一個函式里面區域變數的另一個函式
D.對于def mulBy(factor: Double) = (x: Double) => 3 * x; val triple = mulBy(3);,函式triple是一個閉包

2.5 對于以下代碼描述有誤的是？ C

val data = Map(1 -> "One", 2 -> "Two")
?val res = for((k, v) <- data; if(k > 1)) yield v

A.其中的if(k > 1)是一個守衛運算式
B.運行后res的結果為List("Two")
C.運行后res的結果為List("One", "Two")
D.對映射data中的每一個(鍵，值)對，k被系結對鍵，而v則被系結到值

2.6? Scala中，下面的哪個類定義是不正確的？ B

A.class Counter{def counter = “counter”}
B.class Counter{var counter:String}
C.class Counter{def counter () {}}
D.class Counter{val counter = “counter”}

2.7 以下關于類和單例物件的對比說法正確的是？ A

A.單例物件不可以帶引數，而類可以
B.單例物件不可以定義方法，而類可以
C.單例物件不可以定義私有屬性，而類可以
D.單例物件不可以繼承，而類可以

2.8 Scala語言中，關于List的定義，不正確的是？ B

A.val list = List(1,2,3)
B.val list = List [String]('A','B','C')
C.val list = List [Int](1,2,3)
D.val list = List [String]()

2.9? 對于Map(“book” -> 5, “pen” -> 2).map(m => m._1 -> m._2 * 2)的結果，下面哪個是正確的？ A

?A.Map("book" -> 10, "pen" -> 4)
B.Map("bookbook" -> 10, "penpen" -> 4)
C.Map("book" -> 5, "pen" -> 2 ,"book" -> 5, "pen" -> 2)
D.Map("bookbook" -> 5, "penpen" -> 2)

2.10? 運算式for(i <- 1 to 3; j <- 1 to 3; if i != j ) {print((10 * i + j));print(" ")}輸出結果正確的是？ D

A.11 12 21 22 31 32
B.11 13 21 23 31 33
C.11 12 13 21 22 23 31 32 33
D.12 13 21 23 31 32

2.11 ?以下哪些選項屬于Scala的基本特性? ABCD

A.是一門類Java的多范式語言
B.是一門函式式語言，支持高階函式，允許嵌套多層函式，并支持柯里化（Currying）
C.運行于Java虛擬機（JVM）之上，并且兼容現有的Java程式
D.是一門純粹的面向物件的語言

2.12 關于主構造器，以下說法正確的是？ ABD

?A.主構造器的引數可以直接放在類名后
B.主構造器中可以使用默認引數
C.主構造器在每個類都可以定義多個
D.主構造器會執行類定義中的所有陳述句

2.13 Scala里的函式是“頭等公民”，以下哪些說法是正確的？ ACD

A.將函式賦值給變數
B.以上說法都不正確
C.將函式作為其他函式的回傳值
D.將函式作為引數傳遞給其他函式

2.14 以下關于特質的說法正確的是？ ABC

A.類可以實作任意數量的特質
B.特質可以要求實作它們的類具備特定的欄位、方法或超類
C.當將多個特質疊加在一起時，順序很重要，其方法先被執行的特質排在更后面
D.與Java介面(Interface)相同，Scala特質不可以提供方法和欄位的實作

2.15 對于元組val t = (1, 3.14, “Fred”)說法正確的是？ BCD

A.t_1 等于 1
B.t._0無法訪問，會拋出例外
C.t 的型別為 Tuple3[Int, Double, java.lang.String]
D.val (first, second, _) = t // second 等于 3.14

2.16 Scala 中，類和它的伴生物件說法正確的是？ BC

A.類和它的伴生物件可以有不同的名稱
B.類和它的伴生物件定義在同一個檔案中
C.類和它的伴生物件可以互相訪問私有特性
D.類有靜態方法，伴生物件沒有靜態方法

2.17 關于陣列val a = Array(1,2,3)下列說法正確的是？ ABC

?A.val b = for(elem <- a if elem % 2 == 0) yield 2 * elem // b 等于 Array(4)
B.val b = for(elem <- a) yield 2 * elem // b 等于 Array(2,4,6)
C.val b = a.map(_*2) // b 等于 Array(2,4,6)
D.val b = 2 * a // b 等于 Array(2,4,6)

2.18? 以下關于Scala各種資料結構的說法正確的是? ABC

A.集合(Set)是不重復元素的容器
B.串列(List)一旦被定義,其值就不能改變
C.迭代器(Iterator)是一種提供了按順序訪問容器元素的資料結構
D.映射(Map)是一系列鍵值對的容器,在一個映射中,鍵是唯一的,值也是唯一的

2.19 ?val books = List(“Hadoop”,”Hive”,”Mapreduce”),以下哪些操作能將字串全部變成大寫？ BCD

?A.for (book <-books; c<-book) yield c.toUpperCase
B.books.map(s => s.toUpperCase)
C.for (book<-books) yield book.toUpperCase
D.books.map(_.toUpperCase)

2.20 在Scala中，關于Nothing，null，Null，Option，Some，None的說法正確的是？ ABCD

?A.Null是所有參考型別的子類，其唯一的實體是null
B.null表示一個空物件，可以賦值給任何參考型別
C.類Option是一個抽象類，有一個具體子類Some 和一個物件None，分別表示有值和無值的情況
D.Nothing 是所有其他型別的子類，沒有實體，主要用于例外處理函式的回傳型別

第3章 Spark的設計與運行原理 (10個題)

3.1 ?以下是Spark的主要特點的有? ABCD

A.運行速度快
B.容易使用，簡潔的API設計有助于用戶輕松構建并行程式
C.通用性，Spark提供了完整而強大的技術堆疊
D.運行模式多樣

3.2 Spark的運行架構包括哪些？ ABCD

A.集群資源管理器（Cluster Manager）
B.執行行程（Executor）
C.Worker Node
D.任務控制節點Driver Program

3.?3 關于RDD之間的依賴分為窄依賴和寬依賴，以下說法正確的是？ AC

A.存在一個父RDD的一個磁區對應一個子RDD的多個磁區，則為寬依賴
B.存在一個父RDD的多個磁區對應一個子RDD的一個磁區，則為寬依賴
C.存在一個父RDD的一個磁區只被一個子RDD的一個磁區所使用，則為窄依賴
D.存在一個父RDD的一個磁區被一個子RDD的多個磁區所使用，則為窄依賴

3.4 Spark可以采用幾種不同的部署方式，以下正確的部署方式有？ ABCD

A.Local
B.Standalone
C.Spark on Mesos
D.Spark on YARN

3.5 ?目前的大資料處理典型應用場景可分為哪幾個型別? ABD

A.復雜的批量資料處理
B.基于歷史資料的互動式查詢
C.大資料的分布式計算
D.基于實時資料流的資料處理

3.6 以下哪個不是Spark的組件? D

A.Spark Streaming
B.MLlib
C.GraphX
D.Flink

3.7 下面哪個不是 RDD 的特點 ? C

A.可磁區
B.可序列化
C.可修改
D.可持久化

3.8.Task是Executor上的作業單元，運行于下面哪個組件上？ C

A.Driver Program
B.Spark Master
C.Worker Node
D.Cluster Manager

3.9 下面哪個操作肯定是寬依賴？ C

A.map
B.filter
C.reduceByKey
D.union

3.10 以下選項中哪些是Spark的優點？ AC

?A.具有高效的容錯性
B.利用行程模型
C.可以將中間結果持久化到記憶體
D.表達能力有限

第4章 Spark環境搭建和使用方法 (10個題)

4.1? Spark部署模式有哪幾種? ABCD

A.Local模式（單機模式）
B.Standalone模式 
C.YARN模式
D.Mesos模式

4.2? 關于Hadoop和Spark的相互關系，以下說法正確的是？ ABCD

A.Hadoop和Spark可以相互協作
B.Hadoop負責資料的存盤和管理
C.Spark負責資料的計算
D.Spark要操作Hadoop中的資料，需要先啟動HDFS

4.3 判斷HDFS是否啟動成功，可以通過哪個命令？ C

?A.hdfs
B.spark
C.jps
D.start-dfs

4.4 ?HDFS若啟動成功，系統會列出以下哪些行程？ ACD

A.NameNode
B.HDFS
C.DataNode
D.SecondaryNameNode

4.5 spark-shell在啟動時，采用local[*]時，它的含義是？ B

A.使用任意個執行緒來本地化運行Spark
B.使用與邏輯CPU個數相同數量的執行緒來本地化運行Spark
C.使用與邏輯CPU個數相同數量的行程來本地化運行Spark
D.使用單個執行緒來本地化運行Spark

4.6? spark-shell在啟動時，采用yarn-client模式時，以下說法正確的是？ AC

A.當用戶提交了作業之后，不能關掉Client
B.當用戶提交了作業之后，就可以關掉Client
C.該模式適合運行互動型別的作業
D.該模式不適合運行互動型別的作業

4.7 spark-shell在啟動時，采用yarn-cluster模式時，以下說法正確的是？ BD

A.當用戶提交了作業之后，不能關掉Client
B.當用戶提交了作業之后，就可以關掉Client
C.該模式適合運行互動型別的作業
D.該模式不適合運行互動型別的作業

4.8? 開發Spark獨立應用程式的基本步驟通常有哪些? ABCD

?A.安裝編譯打包工具，如sbt，Maven
B.撰寫Spark應用程式代碼
C.編譯打包
D.通過spark-submit運行程式

4.9 下面描述正確的是： C

A.Hadoop和Spark不能部署在同一個集群中
B.Hadoop只包含了存盤組件，不包含計算組件
C.Spark是一個分布式計算框架，可以和Hadoop組合使用
D.Spark和Hadoop是競爭關系，二者不能組合使用

4.10? 集群上運行Spark應用程式的方法步驟有哪些? ABCD

A.啟動Hadoop集群
B.啟動Spark的Master節點和所有Slave節點
C.在集群中運行應用程式JAR包
D.查看集群資訊以獲得應用程式運行的相關資訊

第5章 RDD編程 (10個題)

5.1 以下操作中，哪個不是Spark RDD編程中的操作 A

?A.getLastOne()
B.filter()
C.reduceByKey(func)
D.reduce()

5.2下述陳述句執行的結果是 A

?val rdd=sc.parallelize(Array(1,2,3,4,5))
rdd.take(3)

A.Array(1,2,3)
B.Array(2,3,4)
C.3
D.6

5.3? 有一個鍵值對RDD，名稱為pairRDD，它包含4個元素，分別是(“Hadoop”,1)、(“Spark”,1)、(“Hive”,1)和(“Spark”,1),則pairRDD.reduceByKey((a,b)=>a+b)執行結果得到的RDD，它里面包含的元素是 A

A.(“Hadoop”,1),(“Spark”,2),(“Hive”,1)
B.(“Hadoop”,2),(“Spark”,1),(“Hive”,1)
C.(“Hadoop”,2),(“Spark”,2),(“Hive”,2)
D.(“Hadoop”,1),(“Spark”,2),(“Hive”,2)

5.4 ?下述陳述句的執行結果wordCountsWithGroup中包含的元素是 A

val  words = Array("one", "two", "two", "three", "three", "three") 
?val  wordPairsRDD = sc.parallelize(words).map(word => (word, 1))
?val  wordCountsWithGroup = wordPairsRDD. groupByKey().map(t => (t._1, t._2.sum))

A.(“one”,1),(“two”,2),(“three”,3)
B.(“one”,1),(“two”,2),(“three”,1)
C.(“one”,3),(“two”,2),(“three”,1)
D.(“one”,1),(“two”,1),(“three”,1)

5.5 有一個鍵值對RDD，名稱為pairRDD，包含4個元素，分別是(“Hadoop”,1)、(“Spark”,1)、(“Hive”,1)和(“Spark”,1)，則pairRDD.mapValues(x => x+1)操作得到的RDD中所包含的元素是 C

A.1,1,1,1
B.2,2,2,2
C.("Hadoop",2)、("Spark",2)、("Hive",2)和("Spark",2)
D. ("Hadoop",1)、("Spark",1)、("Hive",1)和("Spark",1)

5.6 RDD操作包括哪兩種型別 AC

A.行動（Action）
B.分組（GroupBy）
C.轉換（Transformation）
D.連接（Join）

5.7 ?以下操作中，哪些是轉換（Transformation）操作 AB

A.filter()
B.reduceByKey(func)
C.first()
D.count()

5.8 以下操作中，哪些是行動（Action）操作 AB

A.reduce()
B.collect()
C.groupByKey()
D.map()

5.9 ?以下關于RDD的持久化的描述，正確的是 ABCD

A.persist(MEMORY_ONLY)：表示將RDD作為反序列化的物件存盤于JVM中，如果記憶體不足，就要按照LRU原則替換快取中的內容
B.通過持久化（快取）機制可以避免重復計算的開銷
C.persist(MEMORY_AND_DISK)：表示將RDD作為反序列化的物件存盤在JVM中，如果記憶體不足，超出的磁區將會被存放在硬碟上
D.使用cache()方法時，會呼叫persist(MEMORY_ONLY)

5.10 ?關于RDD磁區的作用，下面描述正確的是 BC

A.增加時間開銷
B.增加并行度
C.減少通信開銷
D.減少并行度

第6章 Spark SQL (10個題)

6.1 關于Shark，下面描述正確的是： C

A.Shark提供了類似Pig的功能
B.Shark把SQL陳述句轉換成MapReduce作業
C.Shark重用了Hive中的HiveQL決議、邏輯執行計劃翻譯、執行計劃優化等邏輯
D.Shark的性能比Hive差很多

6.2? 下面關于Spark SQL架構的描述錯誤的是： D

A.在Shark原有的架構上重寫了邏輯執行計劃的優化部分，解決了Shark存在的問題
B.Spark SQL在Hive兼容層面僅依賴HiveQL決議和Hive元資料
C.Spark SQL執行計劃生成和優化都由Catalyst（函式式關系查詢優化框架）負責
D.Spark SQL執行計劃生成和優化需要依賴Hive來完成

6.3 要把一個DataFrame保存到people.json檔案中，下面陳述句哪個是正確的： A

A.df.write.json("people.json")
B. df.json("people.json")
C.df.write.format("csv").save("people.json")
D.df.write.csv("people.json")

6.4 以下操作中，哪個不是DataFrame的常用操作： D

A.printSchema()
B.select()
C.filter()
D.sendto()

6.5? Shark的設計導致了兩個問題： AC

A.執行計劃優化完全依賴于Hive，不方便添加新的優化策略
B.執行計劃優化不依賴于Hive，方便添加新的優化策略
C.Spark是執行緒級并行，而MapReduce是行程級并行，因此，Spark在兼容Hive的實作上存在執行緒安全問題，導致Shark不得不使用另外一套獨立維護的、打了補丁的Hive原始碼分支
D.Spark是行程級并行，而MapReduce是執行緒級并行，因此，Spark在兼容Hive的實作上存在執行緒安全問題，導致Shark不得不使用另外一套獨立維護的、打了補丁的Hive原始碼分支

6.6 ?下面關于為什么推出Spark SQL的原因的描述正確的是： AB

?A.Spark SQL可以提供DataFrame API，可以對內部和外部各種資料源執行各種關系操作
B.可以支持大量的資料源和資料分析演算法，組合使用Spark SQL和Spark MLlib，可以融合傳統關系資料庫的結構化資料管理能力和機器學習演算法的資料處理能力
C.Spark SQL無法對各種不同的資料源進行整合
D.Spark SQL無法融合結構化資料管理能力和機器學習演算法的資料處理能力

6.7 下面關于DataFrame的描述正確的是： ABCD

A.DataFrame的推出，讓Spark具備了處理大規模結構化資料的能力
B.DataFrame比原有的RDD轉化方式更加簡單易用，而且獲得了更高的計算性能
C.Spark能夠輕松實作從MySQL到DataFrame的轉化，并且支持SQL查詢
D.DataFrame是一種以RDD為基礎的分布式資料集，提供了詳細的結構資訊

6.8? 要讀取people.json檔案生成DataFrame，可以使用下面哪些命令： AC

A.spark.read.json("people.json")
B.spark.read.parquet("people.json")
C.spark.read.format("json").load("people.json")
D.spark.read.format("csv").load("people.json")

6.9 從RDD轉換得到DataFrame包含兩種典型方法，分別是： AB

A.利用反射機制推斷RDD模式
B.使用編程方式定義RDD模式
C.利用投影機制推斷RDD模式
D.利用互聯機制推斷RDD模式

6.10 使用編程方式定義RDD模式時，主要包括哪三個步驟： ABD

?A.制作“表頭”
B.制作“表中的記錄”
C.制作映射表
D.把“表頭”和“表中的記錄”拼裝在一起

第7章 Spark Streaming (11個題)

7.1 以下流計算框架中，哪個不是開源的： A

A.IBM StreamBase
B.Twitter Storm
C.Yahoo! S4
D.Spark Streaming

7.2 ?下面關于Spark Streaming的描述錯誤的是： D

A.Spark Streaming的基本原理是將實時輸入資料流以時間片為單位進行拆分，然后采用Spark引擎以類似批處理的方式處理每個時間片資料
B.Spark Streaming最主要的抽象是DStream（Discretized Stream，離散化資料流），表示連續不斷的資料流
C.Spark Streaming可整合多種輸入資料源，如Kafka、Flume、HDFS，甚至是普通的TCP套接字
D.Spark Streaming的資料抽象是DataFrame

7.3 ?下面關于Spark Streaming和Storm的描述正確的是： A

A.Spark Streaming無法實作毫秒級的流計算，而Storm可以實作毫秒級回應
B.Spark Streaming可以實作毫秒級的流計算，而Storm無法實作毫秒級回應
C.Spark Streaming和Storm都可以實作毫秒級的流計算
D.Spark Streaming和Storm都無法實作毫秒級的流計算

7.4 ?下面描述錯誤的是： D

A.在RDD編程中需要生成一個SparkContext物件
B.在Spark SQL編程中需要生成一個SparkSession物件
C.運行一個Spark Streaming程式，就需要首先生成一個StreamingContext物件
D.在Spark SQL編程中需要生成一個StreamingContext物件

7.5 下面不屬于Spark Streaming基本輸入源的是： D

A.檔案流
B.套接字流
C.RDD佇列流
D.雙向資料流

7.6 以下關于流資料特征的描述，哪些是正確的： ABCD

?A.資料快速持續到達，潛在大小也許是無窮無盡的
B.資料來源眾多，格式復雜
C.資料量大，但是不十分關注存盤，一旦流資料中的某個元素經過處理，要么被丟棄，要么被歸檔存盤
D.資料順序顛倒，或者不完整，系統無法控制將要處理的新到達的資料元素的順序

7.7 流計算處理流程一般包括哪三個階段： ABD

A.資料實時采集
B.資料實時計算
C.資料匯總分析
D.實時查詢服務

7.8 ?以下產品哪些屬于日志采集組件： AC

A.Scribe
B.GraphX
C.Flume
D.MySQL

7.9 流處理系統與傳統的資料處理系統的不同之處在于： ABC

A.流處理系統處理的是實時的資料，而傳統的資料處理系統處理的是預先存盤好的靜態資料
B.用戶通過流處理系統獲取的是實時結果，而通過傳統的資料處理系統獲取的是過去某一時刻的結果
C.流處理系統無需用戶主動發出查詢，實時查詢服務可以主動將實時結果推送給用戶
D.流處理系統處理的是歷史的資料，而傳統的資料處理系統處理的是實時的資料

7.10? 撰寫Spark Streaming程式的基本步驟包括： ABCD

A.通過創建輸入DStream（Input Dstream）來定義輸入源
B.通過對DStream應用轉換操作和輸出操作來定義流計算
C.呼叫StreamingContext物件的start()方法來開始接收資料和處理流程
D.呼叫StreamingContext物件的awaitTermination()方法來等待流計算行程結束

7.11 DStream有狀態轉換操作包括哪兩種： CD

A.update操作
B.reduceByKey操作
C.滑動視窗轉換操作
D.updateStateByKey操作

第8章 Spark MLlib (8個題)

8.1 下面論述中錯誤的是： A

A.機器學習和人工智能是不存在關聯關系的兩個獨立領域
B.機器學習強調三個關鍵詞：演算法、經驗、性能
C.推薦系統、金融反欺詐、語音識別、自然語言處理和機器翻譯、模式識別、智能控制等領域，都用到了機器學習的知識
D.機器學習可以看作是一門人工智能的科學，該領域的主要研究物件是人工智能

8.2? 下面關于機器學習處理程序的描述，錯誤的是： D

?A.在資料的基礎上，通過演算法構建出模型并對模型進行評估
B.評估的性能如果達到要求，就用該模型來測驗其他的資料
C.評估的性能如果達不到要求，就要調整演算法來重新建立模型，再次進行評估
D.通過演算法構建出的模型不需要評估就可以用于其他資料的測驗

8.3 ?下面關于機器學習流水線(PipeLine)的描述，錯誤的是： D

A.流水線將多個作業流階段（轉換器和評估器）連接在一起，形成機器學習的作業流，并獲得結果輸出
B.要構建一個機器學習流水線，首先需要定義流水線中的各個PipelineStage
C.PipelineStage稱為作業流階段，包括轉換器和評估器，比如指標提取和轉換模型訓練等
D.流水線構建好以后，就是一個轉換器（Transformer）

8.4 下面關于評估器（Estimator）的描述錯誤的是： C

A.評估器是學習演算法或在訓練資料上的訓練方法的概念抽象
B.在機器學習流水線里，評估器通常是被用來操作 DataFrame資料并生成一個轉換器
C.評估器實作了方法transfrom()，它接受一個DataFrame并產生一個轉換器
D.評估器實作了方法fit()，它接受一個DataFrame并產生一個轉換器

8.5 下面關于轉換器（Transformer）的描述錯誤的是： B

A.轉換器是一種可以將一個DataFrame轉換為另一個DataFrame的演算法
B.技術上，轉換器實作了一個方法fit()，它通過附加一個或多個列，將一個DataFrame轉換為另一個DataFrame
C.一個模型就是一個轉換器，它把一個不包含預測標簽的測驗資料集DataFrame打上標簽，轉化成另一個包含預測標簽的 DataFrame
D.技術上，轉換器實作了一個方法transform()，它通過附加一個或多個列，將一個DataFrame轉換為另一個DataFrame

8.6 下面的論述中，正確的是： AB

A.傳統的機器學習演算法，由于技術和單機存盤的限制，大多只能在少量資料上使用
B.利用MapReduce框架在全量資料上進行機器學習，這在一定程度上解決了統計隨機性的問題，提高了機器學習的精度
C.MapReduce可以高效支持迭代計算
D.Spark無法高效支持迭代計算

8.7 下面關于Spark MLlib庫的描述正確的是： AC

?A.MLlib庫從1.2版本以后分為兩個包：spark.mllib和spark.ml
B.spark.mllib包含基于DataFrame的原始演算法API
C.spark.mllib包含基于RDD的原始演算法API
D.spark.ml則提供了基于RDD的、高層次的API

8.8下面論述中正確的是： ABC

A.DataFrame可容納各種資料型別，與RDD資料集相比，它包含了模式（schema）資訊，類似于傳統資料庫中的二維表格
B.流水線用DataFrame來存盤源資料
C.轉換器（Transformer）是一種可以將一個DataFrame轉換為另一個DataFrame的演算法
D.評估器（Estimator）是一種可以將一個DataFrame轉換為另一個DataFrame的演算法

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/402692.html

標籤：其他

上一篇：011 大資料之Hive

下一篇：【無標題】一定要走，走到燈火通明

大資料應用技術期末復習 | Spark Scala版本 | 八個章節總共89個選擇題匯總 (附帶答案)