主頁 >  其他 > 大資料應用技術期末復習 | Spark Scala版本 | 八個章節總共89個選擇題匯總 (附帶答案)

大資料應用技術期末復習 | Spark Scala版本 | 八個章節總共89個選擇題匯總 (附帶答案)

2022-01-04 09:34:48 其他

文章目錄

  • 選擇題總結 (89個題)
  • 第1章 大資料技術概述 (10個題)
  • 第2章 Scala 語言基礎 (20個題)
  • 第3章 Spark的設計與運行原理 (10個題)
  • 第4章 Spark環境搭建和使用方法 (10個題)
  • 第5章 RDD編程 (10個題)
  • 第6章 Spark SQL (10個題)
  • 第7章 Spark Streaming (11個題)
  • 第8章 Spark MLlib (8個題)

選擇題總結 (89個題)

第1章 大資料技術概述 (10個題)


?1.1 大資料技術及其代表性的軟體種類很多,不同的技術有其不同應用場景,都對應著不同的大資料計算模式,請問軟體產品Pregel主要應用于以下哪種計算模式? B.圖計算

A.流計算
B.圖計算
C.查詢分析計算
D.批處理計算

1.2 Hadoop生態系統中用于構建資料倉庫并允許用戶輸入SQL陳述句進行查詢的功能組件是? C. Hive

A.Flume
B.Pregel
C.Hive
D.Spark

1.3 ?Hadoop的生態系統組件之一Sqoop的功能是? D.交換資料

A.負責集群資源調度管理的組件
B.用來存盤非結構化和半結構化的松散資料
C.提供高可靠性、高可用、分布式的海量日志采集
D.用來在Hadoop和關系資料庫之間的交換資料,改進資料的互操作性

1.4 以下哪一項不是Hadoop的缺點? B.分布存盤到多臺機器

A.計算延遲高
B.資料檔案被分布存盤到多臺機器上
C.磁盤I/O開銷大
D.計算表達能力有限

1.5 用戶在使用HDFS時,仍然可以像普通檔案系統那樣用檔案名去訪問檔案,以下哪個選項是正確的訪問方式? D. 三短一長選最長(

?A.把檔案名發送給名稱節點,根據檔案名直接在名稱節點上獲取資料
B.把檔案名發送給資料節點,根據檔案名直接在資料節點上獲取資料
C.以上說法都不對
D.把檔案名發送給名稱節點,根據檔案名在名稱節點上找到資料塊的實際存盤資訊,客戶端再到資料節點上獲取資料

1.6 目前學術界和業界比較認可的關于大資料的四個特點是? ABCD

?A.資料型別多
B.價值密度低
C.資料量大
D.處理速度快

1.7 Hadoop兩大核心組成部分是什么? CD

?A.資源調度管理框架YARN
B.分布式協作服務Zookeeper
C.分布式計算框架MapReduce
D.分布式檔案系統HDFS

1.8.?YARN是負責集群資源調度管理的組件,不同的計算框架統一運行在YARN框架之上,具有哪些優點: ABCD

?A.計算資源按需伸縮
B.大大降低了運維成本
C.不同負載應用混搭,集群利用率高
D.共享底層存盤,避免資料跨集群遷移

1.9 關于Hadoop生態系統中HBase與其它部分的關系,以下說法正確的有: ABCD

?A.HBase利用MapReduce來處理HBase中的海量資料,實作高性能計算
B.利用Pig和Hive為HBase提供了高層語言支持
C.使用HDFS作為高可靠的底層存盤,利用廉價集群提供海量資料存盤能力
D.使用Sqoop為HBase提供了高效便捷的RDBMS資料匯入功能

1.10.Spark的設計遵循“一個軟體堆疊滿足不同應用場景”的理念,逐漸形成了一套完整的生態系統,可以支持以下哪些操作計算: ABCD

?A.流式計算(Spark Streaming)
B.SQL即席查詢(Spark SQL)
C.圖計算(GraphX)
D.機器學習(MLlib)

第2章 Scala 語言基礎 (20個題)


2.1 下面輸出與其他不一致的是? D

A.print("Hello World\n")
B.println("Hello World")
C.printf("Hello %s", "World\n")
D.val w = "World" ; println("Hello $w")

2.2 有關運算子優先級的描述不正確的是? A

A.+的優先級高于!
B.%的優先級高于+
C.>的優先級高于&
D.*=的優先級低于+

2.3 對集合(Set)進行操作"Set(2, 0, 1) + 1 + 1 - 1"之后的結果為? C

A.以上均不正確
B.Set(2, 0, 1, 1)
C.Set(2, 0)
D.Set(2, 0, 1)

2.4 以下關于閉包描述錯誤的是? D

A.對于def mulBy(factor: Double) = (x: Double) => factor * x; val triple = mulBy(3);,函式triple是一個閉包
B.閉包是一個函式,其回傳值依賴于宣告在函式包部的一個或多個變數
C.通常來講,可以將閉包看作是可以訪問一個函式里面區域變數的另一個函式
D.對于def mulBy(factor: Double) = (x: Double) => 3 * x; val triple = mulBy(3);,函式triple是一個閉包

2.5 對于以下代碼描述有誤的是? C

val data = Map(1 -> "One", 2 -> "Two")
?val res = for((k, v) <- data; if(k > 1)) yield v
A.其中的if(k > 1)是一個守衛運算式
B.運行后res的結果為List("Two")
C.運行后res的結果為List("One", "Two")
D.對映射data中的每一個(鍵,值)對,k被系結對鍵,而v則被系結到值

2.6? Scala中,下面的哪個類定義是不正確的? B

A.class Counter{def counter = “counter”}
B.class Counter{var counter:String}
C.class Counter{def counter () {}}
D.class Counter{val counter = “counter”}

2.7 以下關于類和單例物件的對比說法正確的是? A

A.單例物件不可以帶引數,而類可以
B.單例物件不可以定義方法,而類可以
C.單例物件不可以定義私有屬性,而類可以
D.單例物件不可以繼承,而類可以

2.8 Scala語言中,關于List的定義,不正確的是? B

A.val list = List(1,2,3)
B.val list = List [String]('A','B','C')
C.val list = List [Int](1,2,3)
D.val list = List [String]()

2.9? 對于Map(“book” -> 5, “pen” -> 2).map(m => m._1 -> m._2 * 2)的結果,下面哪個是正確的? A

?A.Map("book" -> 10, "pen" -> 4)
B.Map("bookbook" -> 10, "penpen" -> 4)
C.Map("book" -> 5, "pen" -> 2 ,"book" -> 5, "pen" -> 2)
D.Map("bookbook" -> 5, "penpen" -> 2)

2.10? 運算式for(i <- 1 to 3; j <- 1 to 3; if i != j ) {print((10 * i + j));print(" ")}輸出結果正確的是? D

A.11 12 21 22 31 32
B.11 13 21 23 31 33
C.11 12 13 21 22 23 31 32 33
D.12 13 21 23 31 32

2.11 ?以下哪些選項屬于Scala的基本特性? ABCD

A.是一門類Java的多范式語言
B.是一門函式式語言,支持高階函式,允許嵌套多層函式,并支持柯里化(Currying)
C.運行于Java虛擬機(JVM)之上,并且兼容現有的Java程式
D.是一門純粹的面向物件的語言

2.12 關于主構造器,以下說法正確的是? ABD

?A.主構造器的引數可以直接放在類名后
B.主構造器中可以使用默認引數
C.主構造器在每個類都可以定義多個
D.主構造器會執行類定義中的所有陳述句

2.13 Scala里的函式是“頭等公民”,以下哪些說法是正確的? ACD

A.將函式賦值給變數
B.以上說法都不正確
C.將函式作為其他函式的回傳值
D.將函式作為引數傳遞給其他函式

2.14 以下關于特質的說法正確的是? ABC

A.類可以實作任意數量的特質
B.特質可以要求實作它們的類具備特定的欄位、方法或超類
C.當將多個特質疊加在一起時,順序很重要,其方法先被執行的特質排在更后面
D.與Java介面(Interface)相同,Scala特質不可以提供方法和欄位的實作

2.15 對于元組val t = (1, 3.14, “Fred”)說法正確的是? BCD

A.t_1 等于 1
B.t._0無法訪問,會拋出例外
C.t 的型別為 Tuple3[Int, Double, java.lang.String]
D.val (first, second, _) = t // second 等于 3.14

2.16 Scala 中,類和它的伴生物件說法正確的是? BC

A.類和它的伴生物件可以有不同的名稱
B.類和它的伴生物件定義在同一個檔案中
C.類和它的伴生物件可以互相訪問私有特性
D.類有靜態方法,伴生物件沒有靜態方法

2.17 關于陣列val a = Array(1,2,3)下列說法正確的是? ABC

?A.val b = for(elem <- a if elem % 2 == 0) yield 2 * elem // b 等于 Array(4)
B.val b = for(elem <- a) yield 2 * elem // b 等于 Array(2,4,6)
C.val b = a.map(_*2) // b 等于 Array(2,4,6)
D.val b = 2 * a // b 等于 Array(2,4,6)

2.18? 以下關于Scala各種資料結構的說法正確的是? ABC

A.集合(Set)是不重復元素的容器
B.串列(List)一旦被定義,其值就不能改變
C.迭代器(Iterator)是一種提供了按順序訪問容器元素的資料結構
D.映射(Map)是一系列鍵值對的容器,在一個映射中,鍵是唯一的,值也是唯一的

2.19 ?val books = List(“Hadoop”,”Hive”,”Mapreduce”),以下哪些操作能將字串全部變成大寫? BCD

?A.for (book <-books; c<-book) yield c.toUpperCase
B.books.map(s => s.toUpperCase)
C.for (book<-books) yield book.toUpperCase
D.books.map(_.toUpperCase)

2.20 在Scala中,關于Nothing,null,Null,Option,Some,None的說法正確的是? ABCD

?A.Null是所有參考型別的子類,其唯一的實體是null
B.null表示一個空物件,可以賦值給任何參考型別
C.類Option是一個抽象類,有一個具體子類Some 和一個物件None,分別表示有值和無值的情況
D.Nothing 是所有其他型別的子類,沒有實體,主要用于例外處理函式的回傳型別

第3章 Spark的設計與運行原理 (10個題)


3.1 ?以下是Spark的主要特點的有? ABCD

A.運行速度快
B.容易使用,簡潔的API設計有助于用戶輕松構建并行程式
C.通用性,Spark提供了完整而強大的技術堆疊
D.運行模式多樣

3.2 Spark的運行架構包括哪些? ABCD

A.集群資源管理器(Cluster Manager)
B.執行行程(Executor)
C.Worker Node
D.任務控制節點Driver Program

3.?3 關于RDD之間的依賴分為窄依賴和寬依賴,以下說法正確的是? AC

A.存在一個父RDD的一個磁區對應一個子RDD的多個磁區,則為寬依賴
B.存在一個父RDD的多個磁區對應一個子RDD的一個磁區,則為寬依賴
C.存在一個父RDD的一個磁區只被一個子RDD的一個磁區所使用,則為窄依賴
D.存在一個父RDD的一個磁區被一個子RDD的多個磁區所使用,則為窄依賴

3.4 Spark可以采用幾種不同的部署方式,以下正確的部署方式有? ABCD

A.Local
B.Standalone
C.Spark on Mesos
D.Spark on YARN

3.5 ?目前的大資料處理典型應用場景可分為哪幾個型別? ABD

A.復雜的批量資料處理
B.基于歷史資料的互動式查詢
C.大資料的分布式計算
D.基于實時資料流的資料處理

3.6 以下哪個不是Spark的組件? D

A.Spark Streaming
B.MLlib
C.GraphX
D.Flink

3.7 下面哪個不是 RDD 的特點 ? C

A.可磁區
B.可序列化
C.可修改
D.可持久化

3.8.Task是Executor上的作業單元,運行于下面哪個組件上? C

A.Driver Program
B.Spark Master
C.Worker Node
D.Cluster Manager

3.9 下面哪個操作肯定是寬依賴? C

A.map
B.filter
C.reduceByKey
D.union

3.10 以下選項中哪些是Spark的優點? AC

?A.具有高效的容錯性
B.利用行程模型
C.可以將中間結果持久化到記憶體
D.表達能力有限

第4章 Spark環境搭建和使用方法 (10個題)


4.1? Spark部署模式有哪幾種? ABCD

A.Local模式(單機模式)
B.Standalone模式 
C.YARN模式
D.Mesos模式

4.2? 關于Hadoop和Spark的相互關系,以下說法正確的是? ABCD

A.Hadoop和Spark可以相互協作
B.Hadoop負責資料的存盤和管理
C.Spark負責資料的計算
D.Spark要操作Hadoop中的資料,需要先啟動HDFS

4.3 判斷HDFS是否啟動成功,可以通過哪個命令? C

?A.hdfs
B.spark
C.jps
D.start-dfs

4.4 ?HDFS若啟動成功,系統會列出以下哪些行程? ACD

A.NameNode
B.HDFS
C.DataNode
D.SecondaryNameNode

4.5 spark-shell在啟動時,采用local[*]時,它的含義是? B

A.使用任意個執行緒來本地化運行Spark
B.使用與邏輯CPU個數相同數量的執行緒來本地化運行Spark
C.使用與邏輯CPU個數相同數量的行程來本地化運行Spark
D.使用單個執行緒來本地化運行Spark

4.6? spark-shell在啟動時,采用yarn-client模式時,以下說法正確的是? AC

A.當用戶提交了作業之后,不能關掉Client
B.當用戶提交了作業之后,就可以關掉Client
C.該模式適合運行互動型別的作業
D.該模式不適合運行互動型別的作業

4.7 spark-shell在啟動時,采用yarn-cluster模式時,以下說法正確的是? BD

A.當用戶提交了作業之后,不能關掉Client
B.當用戶提交了作業之后,就可以關掉Client
C.該模式適合運行互動型別的作業
D.該模式不適合運行互動型別的作業

4.8? 開發Spark獨立應用程式的基本步驟通常有哪些? ABCD

?A.安裝編譯打包工具,如sbt,Maven
B.撰寫Spark應用程式代碼
C.編譯打包
D.通過spark-submit運行程式

4.9 下面描述正確的是: C

A.Hadoop和Spark不能部署在同一個集群中
B.Hadoop只包含了存盤組件,不包含計算組件
C.Spark是一個分布式計算框架,可以和Hadoop組合使用
D.Spark和Hadoop是競爭關系,二者不能組合使用

4.10? 集群上運行Spark應用程式的方法步驟有哪些? ABCD

A.啟動Hadoop集群
B.啟動Spark的Master節點和所有Slave節點
C.在集群中運行應用程式JAR包
D.查看集群資訊以獲得應用程式運行的相關資訊

第5章 RDD編程 (10個題)


5.1 以下操作中,哪個不是Spark RDD編程中的操作 A

?A.getLastOne()
B.filter()
C.reduceByKey(func)
D.reduce()

5.2下述陳述句執行的結果是 A

?val rdd=sc.parallelize(Array(1,2,3,4,5))
rdd.take(3)
A.Array(1,2,3)
B.Array(2,3,4)
C.3
D.6

5.3? 有一個鍵值對RDD,名稱為pairRDD,它包含4個元素,分別是(“Hadoop”,1)、(“Spark”,1)、(“Hive”,1)和(“Spark”,1),則pairRDD.reduceByKey((a,b)=>a+b)執行結果得到的RDD,它里面包含的元素是 A

A.(“Hadoop”,1),(“Spark”,2),(“Hive”,1)
B.(“Hadoop”,2),(“Spark”,1),(“Hive”,1)
C.(“Hadoop”,2),(“Spark”,2),(“Hive”,2)
D.(“Hadoop”,1),(“Spark”,2),(“Hive”,2)

5.4 ?下述陳述句的執行結果wordCountsWithGroup中包含的元素是 A

val  words = Array("one", "two", "two", "three", "three", "three") 
?val  wordPairsRDD = sc.parallelize(words).map(word => (word, 1))
?val  wordCountsWithGroup = wordPairsRDD. groupByKey().map(t => (t._1, t._2.sum))
A.(“one”,1),(“two”,2),(“three”,3)
B.(“one”,1),(“two”,2),(“three”,1)
C.(“one”,3),(“two”,2),(“three”,1)
D.(“one”,1),(“two”,1),(“three”,1)

5.5 有一個鍵值對RDD,名稱為pairRDD,包含4個元素,分別是(“Hadoop”,1)、(“Spark”,1)、(“Hive”,1)和(“Spark”,1),則pairRDD.mapValues(x => x+1)操作得到的RDD中所包含的元素是 C

A.1,1,1,1
B.2,2,2,2
C.("Hadoop",2)、("Spark",2)、("Hive",2)和("Spark",2)
D. ("Hadoop",1)、("Spark",1)、("Hive",1)和("Spark",1)

5.6 RDD操作包括哪兩種型別 AC

A.行動(Action)
B.分組(GroupBy)
C.轉換(Transformation)
D.連接(Join)

5.7 ?以下操作中,哪些是轉換(Transformation)操作 AB

A.filter()
B.reduceByKey(func)
C.first()
D.count()

5.8 以下操作中,哪些是行動(Action)操作 AB

A.reduce()
B.collect()
C.groupByKey()
D.map()

5.9 ?以下關于RDD的持久化的描述,正確的是 ABCD

A.persist(MEMORY_ONLY):表示將RDD作為反序列化的物件存盤于JVM中,如果記憶體不足,就要按照LRU原則替換快取中的內容
B.通過持久化(快取)機制可以避免重復計算的開銷
C.persist(MEMORY_AND_DISK):表示將RDD作為反序列化的物件存盤在JVM中,如果記憶體不足,超出的磁區將會被存放在硬碟上
D.使用cache()方法時,會呼叫persist(MEMORY_ONLY)

5.10 ?關于RDD磁區的作用,下面描述正確的是 BC

A.增加時間開銷
B.增加并行度
C.減少通信開銷
D.減少并行度

第6章 Spark SQL (10個題)


6.1 關于Shark,下面描述正確的是: C

A.Shark提供了類似Pig的功能
B.Shark把SQL陳述句轉換成MapReduce作業
C.Shark重用了Hive中的HiveQL決議、邏輯執行計劃翻譯、執行計劃優化等邏輯
D.Shark的性能比Hive差很多

6.2? 下面關于Spark SQL架構的描述錯誤的是: D

A.在Shark原有的架構上重寫了邏輯執行計劃的優化部分,解決了Shark存在的問題
B.Spark SQL在Hive兼容層面僅依賴HiveQL決議和Hive元資料
C.Spark SQL執行計劃生成和優化都由Catalyst(函式式關系查詢優化框架)負責
D.Spark SQL執行計劃生成和優化需要依賴Hive來完成

6.3 要把一個DataFrame保存到people.json檔案中,下面陳述句哪個是正確的: A

A.df.write.json("people.json")
B. df.json("people.json")
C.df.write.format("csv").save("people.json")
D.df.write.csv("people.json")

6.4 以下操作中,哪個不是DataFrame的常用操作: D

A.printSchema()
B.select()
C.filter()
D.sendto()

6.5? Shark的設計導致了兩個問題: AC

A.執行計劃優化完全依賴于Hive,不方便添加新的優化策略
B.執行計劃優化不依賴于Hive,方便添加新的優化策略
C.Spark是執行緒級并行,而MapReduce是行程級并行,因此,Spark在兼容Hive的實作上存在執行緒安全問題,導致Shark不得不使用另外一套獨立維護的、打了補丁的Hive原始碼分支
D.Spark是行程級并行,而MapReduce是執行緒級并行,因此,Spark在兼容Hive的實作上存在執行緒安全問題,導致Shark不得不使用另外一套獨立維護的、打了補丁的Hive原始碼分支

6.6 ?下面關于為什么推出Spark SQL的原因的描述正確的是: AB

?A.Spark SQL可以提供DataFrame API,可以對內部和外部各種資料源執行各種關系操作
B.可以支持大量的資料源和資料分析演算法,組合使用Spark SQL和Spark MLlib,可以融合傳統關系資料庫的結構化資料管理能力和機器學習演算法的資料處理能力
C.Spark SQL無法對各種不同的資料源進行整合
D.Spark SQL無法融合結構化資料管理能力和機器學習演算法的資料處理能力

6.7 下面關于DataFrame的描述正確的是: ABCD

A.DataFrame的推出,讓Spark具備了處理大規模結構化資料的能力
B.DataFrame比原有的RDD轉化方式更加簡單易用,而且獲得了更高的計算性能
C.Spark能夠輕松實作從MySQL到DataFrame的轉化,并且支持SQL查詢
D.DataFrame是一種以RDD為基礎的分布式資料集,提供了詳細的結構資訊

6.8? 要讀取people.json檔案生成DataFrame,可以使用下面哪些命令: AC

A.spark.read.json("people.json")
B.spark.read.parquet("people.json")
C.spark.read.format("json").load("people.json")
D.spark.read.format("csv").load("people.json")

6.9 從RDD轉換得到DataFrame包含兩種典型方法,分別是: AB

A.利用反射機制推斷RDD模式
B.使用編程方式定義RDD模式
C.利用投影機制推斷RDD模式
D.利用互聯機制推斷RDD模式

6.10 使用編程方式定義RDD模式時,主要包括哪三個步驟: ABD

?A.制作“表頭”
B.制作“表中的記錄”
C.制作映射表
D.把“表頭”和“表中的記錄”拼裝在一起

第7章 Spark Streaming (11個題)


7.1 以下流計算框架中,哪個不是開源的: A

A.IBM StreamBase
B.Twitter Storm
C.Yahoo! S4
D.Spark Streaming

7.2 ?下面關于Spark Streaming的描述錯誤的是: D

A.Spark Streaming的基本原理是將實時輸入資料流以時間片為單位進行拆分,然后采用Spark引擎以類似批處理的方式處理每個時間片資料
B.Spark Streaming最主要的抽象是DStream(Discretized Stream,離散化資料流),表示連續不斷的資料流
C.Spark Streaming可整合多種輸入資料源,如Kafka、Flume、HDFS,甚至是普通的TCP套接字
D.Spark Streaming的資料抽象是DataFrame

7.3 ?下面關于Spark Streaming和Storm的描述正確的是: A

A.Spark Streaming無法實作毫秒級的流計算,而Storm可以實作毫秒級回應
B.Spark Streaming可以實作毫秒級的流計算,而Storm無法實作毫秒級回應
C.Spark Streaming和Storm都可以實作毫秒級的流計算
D.Spark Streaming和Storm都無法實作毫秒級的流計算

7.4 ?下面描述錯誤的是: D

A.在RDD編程中需要生成一個SparkContext物件
B.在Spark SQL編程中需要生成一個SparkSession物件
C.運行一個Spark Streaming程式,就需要首先生成一個StreamingContext物件
D.在Spark SQL編程中需要生成一個StreamingContext物件

7.5 下面不屬于Spark Streaming基本輸入源的是: D

A.檔案流
B.套接字流
C.RDD佇列流
D.雙向資料流

7.6 以下關于流資料特征的描述,哪些是正確的: ABCD

?A.資料快速持續到達,潛在大小也許是無窮無盡的
B.資料來源眾多,格式復雜
C.資料量大,但是不十分關注存盤,一旦流資料中的某個元素經過處理,要么被丟棄,要么被歸檔存盤
D.資料順序顛倒,或者不完整,系統無法控制將要處理的新到達的資料元素的順序

7.7 流計算處理流程一般包括哪三個階段: ABD

A.資料實時采集
B.資料實時計算
C.資料匯總分析
D.實時查詢服務

7.8 ?以下產品哪些屬于日志采集組件: AC

A.Scribe
B.GraphX
C.Flume
D.MySQL

7.9 流處理系統與傳統的資料處理系統的不同之處在于: ABC

A.流處理系統處理的是實時的資料,而傳統的資料處理系統處理的是預先存盤好的靜態資料
B.用戶通過流處理系統獲取的是實時結果,而通過傳統的資料處理系統獲取的是過去某一時刻的結果
C.流處理系統無需用戶主動發出查詢,實時查詢服務可以主動將實時結果推送給用戶
D.流處理系統處理的是歷史的資料,而傳統的資料處理系統處理的是實時的資料

7.10? 撰寫Spark Streaming程式的基本步驟包括: ABCD

A.通過創建輸入DStream(Input Dstream)來定義輸入源
B.通過對DStream應用轉換操作和輸出操作來定義流計算
C.呼叫StreamingContext物件的start()方法來開始接收資料和處理流程
D.呼叫StreamingContext物件的awaitTermination()方法來等待流計算行程結束

7.11 DStream有狀態轉換操作包括哪兩種: CD

A.update操作
B.reduceByKey操作
C.滑動視窗轉換操作
D.updateStateByKey操作

第8章 Spark MLlib (8個題)


8.1 下面論述中錯誤的是: A

A.機器學習和人工智能是不存在關聯關系的兩個獨立領域
B.機器學習強調三個關鍵詞:演算法、經驗、性能
C.推薦系統、金融反欺詐、語音識別、自然語言處理和機器翻譯、模式識別、智能控制等領域,都用到了機器學習的知識
D.機器學習可以看作是一門人工智能的科學,該領域的主要研究物件是人工智能

8.2? 下面關于機器學習處理程序的描述,錯誤的是: D

?A.在資料的基礎上,通過演算法構建出模型并對模型進行評估
B.評估的性能如果達到要求,就用該模型來測驗其他的資料
C.評估的性能如果達不到要求,就要調整演算法來重新建立模型,再次進行評估
D.通過演算法構建出的模型不需要評估就可以用于其他資料的測驗

8.3 ?下面關于機器學習流水線(PipeLine)的描述,錯誤的是: D

A.流水線將多個作業流階段(轉換器和評估器)連接在一起,形成機器學習的作業流,并獲得結果輸出
B.要構建一個機器學習流水線,首先需要定義流水線中的各個PipelineStage
C.PipelineStage稱為作業流階段,包括轉換器和評估器,比如指標提取和轉換模型訓練等
D.流水線構建好以后,就是一個轉換器(Transformer)

8.4 下面關于評估器(Estimator)的描述錯誤的是: C

A.評估器是學習演算法或在訓練資料上的訓練方法的概念抽象
B.在機器學習流水線里,評估器通常是被用來操作 DataFrame資料并生成一個轉換器
C.評估器實作了方法transfrom(),它接受一個DataFrame并產生一個轉換器
D.評估器實作了方法fit(),它接受一個DataFrame并產生一個轉換器

8.5 下面關于轉換器(Transformer)的描述錯誤的是: B

A.轉換器是一種可以將一個DataFrame轉換為另一個DataFrame的演算法
B.技術上,轉換器實作了一個方法fit(),它通過附加一個或多個列,將一個DataFrame轉換為另一個DataFrame
C.一個模型就是一個轉換器,它把一個不包含預測標簽的測驗資料集DataFrame打上標簽,轉化成另一個包含預測標簽的 DataFrame
D.技術上,轉換器實作了一個方法transform(),它通過附加一個或多個列,將一個DataFrame轉換為另一個DataFrame

8.6 下面的論述中,正確的是: AB

A.傳統的機器學習演算法,由于技術和單機存盤的限制,大多只能在少量資料上使用
B.利用MapReduce框架在全量資料上進行機器學習,這在一定程度上解決了統計隨機性的問題,提高了機器學習的精度
C.MapReduce可以高效支持迭代計算
D.Spark無法高效支持迭代計算

8.7 下面關于Spark MLlib庫的描述正確的是: AC

?A.MLlib庫從1.2版本以后分為兩個包:spark.mllib和spark.ml
B.spark.mllib包含基于DataFrame的原始演算法API
C.spark.mllib包含基于RDD的原始演算法API
D.spark.ml則提供了基于RDD的、高層次的API

8.8下面論述中正確的是: ABC

A.DataFrame可容納各種資料型別,與RDD資料集相比,它包含了模式(schema)資訊,類似于傳統資料庫中的二維表格
B.流水線用DataFrame來存盤源資料
C.轉換器(Transformer)是一種可以將一個DataFrame轉換為另一個DataFrame的演算法
D.評估器(Estimator)是一種可以將一個DataFrame轉換為另一個DataFrame的演算法

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/402692.html

標籤:其他

上一篇:011 大資料之Hive

下一篇:【無標題】一定要走,走到燈火通明

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 2023年最新微信小程式抓包教程

    01 開門見山 隔一個月發一篇文章,不過分。 首先回顧一下《微信系結手機號資料庫被脫庫事件》,我也是第一時間得知了這個訊息,然后跟蹤了整件事情的經過。下面是這起事件的相關截圖以及近日流出的一萬條資料樣本: 個人認為這件事也沒什么,還不如關注一下之前45億快遞資料查詢渠道疑似在近日復活的訊息。 訊息是 ......

    uj5u.com 2023-04-20 08:48:24 more
  • web3 產品介紹:metamask 錢包 使用最多的瀏覽器插件錢包

    Metamask錢包是一種基于區塊鏈技術的數字貨幣錢包,它允許用戶在安全、便捷的環境下管理自己的加密資產。Metamask錢包是以太坊生態系統中最流行的錢包之一,它具有易于使用、安全性高和功能強大等優點。 本文將詳細介紹Metamask錢包的功能和使用方法。 一、 Metamask錢包的功能 數字資 ......

    uj5u.com 2023-04-20 08:47:46 more
  • vulnhub_Earth

    前言 靶機地址->>>vulnhub_Earth 攻擊機ip:192.168.20.121 靶機ip:192.168.20.122 參考文章 https://www.cnblogs.com/Jing-X/archive/2022/04/03/16097695.html https://www.cnb ......

    uj5u.com 2023-04-20 07:46:20 more
  • 從4k到42k,軟體測驗工程師的漲薪史,給我看哭了

    清明節一過,盲猜大家已經無心上班,在數著日子準備過五一,但一想到銀行卡里的余額……瞬間心情就不美麗了。最近,2023年高校畢業生就業調查顯示,本科畢業月平均起薪為5825元。調查一出,便有很多同學表示自己又被平均了。看著這一資料,不免讓人想到前不久中國青年報的一項調查:近六成大學生認為畢業10年內會 ......

    uj5u.com 2023-04-20 07:44:00 more
  • 最新版本 Stable Diffusion 開源 AI 繪畫工具之中文自動提詞篇

    🎈 標簽生成器 由于輸入正向提示詞 prompt 和反向提示詞 negative prompt 都是使用英文,所以對學習母語的我們非常不友好 使用網址:https://tinygeeker.github.io/p/ai-prompt-generator 這個網址是為了讓大家在使用 AI 繪畫的時候 ......

    uj5u.com 2023-04-20 07:43:36 more
  • 漫談前端自動化測驗演進之路及測驗工具分析

    隨著前端技術的不斷發展和應用程式的日益復雜,前端自動化測驗也在不斷演進。隨著 Web 應用程式變得越來越復雜,自動化測驗的需求也越來越高。如今,自動化測驗已經成為 Web 應用程式開發程序中不可或缺的一部分,它們可以幫助開發人員更快地發現和修復錯誤,提高應用程式的性能和可靠性。 ......

    uj5u.com 2023-04-20 07:43:16 more
  • CANN開發實踐:4個DVPP記憶體問題的典型案例解讀

    摘要:由于DVPP媒體資料處理功能對存放輸入、輸出資料的記憶體有更高的要求(例如,記憶體首地址128位元組對齊),因此需呼叫專用的記憶體申請介面,那么本期就分享幾個關于DVPP記憶體問題的典型案例,并給出原因分析及解決方法。 本文分享自華為云社區《FAQ_DVPP記憶體問題案例》,作者:昇騰CANN。 DVPP ......

    uj5u.com 2023-04-20 07:43:03 more
  • msf學習

    msf學習 以kali自帶的msf為例 一、msf核心模塊與功能 msf模塊都放在/usr/share/metasploit-framework/modules目錄下 1、auxiliary 輔助模塊,輔助滲透(埠掃描、登錄密碼爆破、漏洞驗證等) 2、encoders 編碼器模塊,主要包含各種編碼 ......

    uj5u.com 2023-04-20 07:42:59 more
  • Halcon軟體安裝與界面簡介

    1. 下載Halcon17版本到到本地 2. 雙擊安裝包后 3. 步驟如下 1.2 Halcon軟體安裝 界面分為四大塊 1. Halcon的五個助手 1) 影像采集助手:與相機連接,設定相機引數,采集影像 2) 標定助手:九點標定或是其它的標定,生成標定檔案及內參外參,可以將像素單位轉換為長度單位 ......

    uj5u.com 2023-04-20 07:42:17 more
  • 在MacOS下使用Unity3D開發游戲

    第一次發博客,先發一下我的游戲開發環境吧。 去年2月份買了一臺MacBookPro2021 M1pro(以下簡稱mbp),這一年來一直在用mbp開發游戲。我大致分享一下我的開發工具以及使用體驗。 1、Unity 官網鏈接: https://unity.cn/releases 我一般使用的Apple ......

    uj5u.com 2023-04-20 07:40:19 more