主頁 >  其他 > 大資料和云計算

大資料和云計算

2021-12-21 07:41:30 其他

大資料和云計算

image-20211220212116787
私聊可以提供pdf

目錄

  • 大資料和云計算
    • 0
    • 1、
    • 2、
    • 3、
    • 4、
    • 5、
    • 6、
    • 7、
    • 8、

0

1、人們通常最熟悉結構化資料的分析,除了半結構化、“準”結構化和非結構化這三種基本資料型別以外,還有一種重要的資料型別為元資料,它主要由( ),能夠添加到資料集中,

A、人工輸入

B、機器生成

C、自然產生

D、分析計算

2、資料多樣性指的是大資料解決方案需要支持多種( )、不同型別的資料,資料多樣性給企業帶來的挑戰包括資料聚合、資料交換、資料處理和資料存盤等,

A.不同大小

B.不同方向

C.不同格式

D.不同語言

3、( )、傳感器和資料采集技術的快速發展、通過云和虛擬化存盤設施增加的資訊鏈路,以及創新軟體和分析工具,正在驅動著大資料,

A.廉價的存盤

B.昂貴的存盤

C.小而精的存盤

D.昂貴且精準的存盤

4、實際上,大多數的大資料都是( )的,

A.結構化

B.非結構化

C.非或半結構化

D.半結構化

5、所謂大資料,狹義上可以定義為( ),

A.用現有的一般技術難以管理的大量資料的集合

B.隨著互聯網的發展,在我們身邊產生的大量資料

C.隨著硬體和軟體技術的發展,資料的存盤、處理成本大幅下降,從而促進資料大量產生

D.隨著云計算的興起而產生的大量資料

6、所謂“用現有的一般技術難以管理”,例如是指( ),

A.用目前在企業資料庫占據主流地位的關系型資料庫無法進行管理、具有復雜結構的資料

B.由于資料量的增大,導致對非結構化資料的查詢產生了資料丟失

C.分布式處理系統無法承擔如此巨大的資料量

D.資料太少無法適應現有的資料庫處理條件

7、大資料的定義是一個被故意設計成主觀性的定義,即并不定義大于一個特定數字的TB才叫大資料,隨著技術的不斷發展,符合大資料標準的資料集容量( ),

A.穩定不變

B.略有精簡

C.也會增長

D.大幅壓縮

8、可以用3個特征相結合來定義大資料:即( ),

A.數量、數值和速度

B.龐大容量、極快速度和多樣豐富的資料

C.數量、速度和價值

D.豐富的資料、極快的速度、極大的能量

9、隨著計算機技術全面和深度地融入社會生活,資訊爆炸不僅使世界充斥著比以往更多的資訊,而且其增長速度也在加快,資訊總量的變化導致了( )——量變引起了質變,( ),

A.資料庫的出現

B.資訊形態的變化

C.網路技術的發展

D.軟體開發技術的進步

10、下列( )不是預測分析 的主要作用,

A.決策管理

B.滾動預測

C.成本計算

D.自適應管理

11、定量分析專注于量化從資料中發現的模式和關聯,這項技術涉及分析大量從資料集中所得的觀測結果,其結果是( )的,

A.相對字符型

B.相對數值型

C.絕對字符型

D.絕對數值型

12、大資料分析結合了( ),

A.傳統統計分析方法和現代統計分析方法

B.傳統統計分析方法和計算分析方法

C.現代統計方法和計算分析方法

D.傳統計算分析方法和現代計算分析方法

13、資料分析學涵蓋了對整個資料生命周期的管理,而資料生命周期包含了資料收集、( )、資料組織、資料分析、資料存盤以及資料管理等程序,

A.資料完善

B.資料清理

C.資料編輯

D.資料增減

14、資料分析是一個通過處理資料,從資料中發現一些深層知識、模式、關系或是趨勢的程序,資料分析的總體目標是( ),

A.做出唯一決策

B.做出最好決策

C.做出更好決策

D.產生完整的資料集

15、預測分析模型不僅要靠基本人口資料,例如住址、性別等,而且也要涵蓋近期性、頻率、購買行為、經濟行為以及電話和上網等產品使用習慣之類的( )變數,

A.行為預測

B.生活預測

C.經濟預測

D.動作預測

1、

1、大資料分析結果可以用來為商業使用者提供商業決策支持,為使用者提供更多使用這些分析結果的機會,分析結果的使用階段致力于確定( )分析資料能保證產出更大的價值,

A.如何以及在哪里處理

B.怎樣以及什么時候

C.是否以及怎樣

D.如何列印以及存盤

2、資料聚合和表示階段是專門為了將( )進行聚合,從而獲得一個統一的視圖,

A.關鍵資料集

B.離散資料

C.單個資料集

D.多個資料集

3、資料分析階段致力于執行實際的分析任務,通常會涉及一種或多種型別的資料分析,在這個階段,尤其是在探索性分析的情況下,分析程序會( ),

A.重復進行,直到資料被清零

B.回圈進行,直到人為終止

C.自然迭代,直到適當的模式或者相關性被發現

D.一次完成,分析結果被列印和存盤

4、資料可視化階段致力于由使用者使用( )技術和工具,并通過圖形表示有效的分析結果,

A.圖形設計

B.資料可視化

C.Photoshop

D.數字媒體

5、資料標識階段主要是用來標識分析專案所需要的資料集和所需的資源,標識種類眾多的資料資源可能會提高找到( )的可能性,

A.資料獲取和資料列印

B.演算法分析和列印模式

C.隱藏模式和相互關系

D.隱藏價值和潛在商機

6、資料提取階段主要是要提取不同的資料,并將其轉化為大資料解決方案中可用于( )的格式,需要提取和轉化的程度取決于分析的型別和大資料解決方案的能力,
A.資料分析

B.列印輸出

C.資料存盤

D.資料整合

7、大資料分析的生命周期可以分為九個階段,但以下( )不是其中的階段之一,

A.商業案例評估

B.數值計算

C.資料獲取與過濾

D.資料提取

8、大資料分析的生命周期可以分為九個階段,但以下( )不是其中的階段之一,

A.資料標識

B.資料驗證與清理

C.分析結果的使用

D.資料列印

9、大資料分析的生命周期中,在資料( )程序中有許多的步驟,這些都是在資料分析之前所必需的,

A.識別、獲取、過濾、提取、清理和聚合

B.列印、計算、過濾、提取、清理和聚合

C.統計、計算、過濾、存盤、清理和聚合

D.存盤、提取、統計、計算、分析和列印

10、經過數十年發展,分析架構經歷了從獨立的桌面到企業級( )的一個實質性轉變,

A.資料倉庫再到大資料平臺

B.大資料平臺到資料倉庫

C.大資料平臺到資料挖掘

D.資料挖掘到資料倉庫

11、持續改善,即在生產活動中不斷提高,其核心不包括( ),

A.增加產量,團結員工

B.從小處人手

C.去除過于復雜的作業

D.進行實驗以確定和消除無用之處

12、精明的企業可以通過逆向思維找到( )分析機遇,解決那些在過去看來不可能解決的問題,

A.現成的

B.不存在的

C.潛在的

D.丟失的

13、一個基于九項核心原則的方法成為建立現代分析方法的基礎,但下列( )不是這些原則之一,

A.實作商業價值和影響

B.專注于最后一公里

C.加速學習能力和執行力

D.標準化統一分析

14、在大資料分析商業案例的評估中,如果關鍵績效指標不容易獲取,則需要努力使這個分析專案變得SMART,即( ),

A.實際的、大膽的、有價值的、可分析的

B.有風險的、有機會的、能實作的和有價值的

C.具體的、可衡量的、可實作的、相關的和及時的

D.有理想的、有價值的、有前途的和能實作的

15、大資料分析的生命周期可以分為九個階段,但以下( )不是其中的階段之一,

A.資料刪減

B.資料聚合與表示

C.資料分析

D.資料可視化

2、

1、在某些情況下,分析師將從文本中提取出的特性補充到預測模型中,稱之為( )問題,(不確定)

A.檔案分析

B.資料分析

C.文本挖掘

D.數值分析

2、( )和預報包括廣泛應用于企業的一類獨特分析,并且往往嵌入到企業系統中,用于管理制造、物流、門店運營等,(不確定)

A.時間序列分析

B.業務增長預測

C.蒙特卡洛分析

D.線性增長估算

3、所謂“( )”,泛指由一個指標的變化導致的其他指標的系統性變化,(不確定)
A.預測

B.解釋

C.預報

D.模擬

4、為建立一個完美的模型,更大的分析資料集為分析師帶來了新的機會和問題,但下列( )是錯誤的,(不確定)

A.更多的用例、更多的觀察結果、更多的資料行

B.更多的變數、更多的特性、更多的資料列

C.更好的演算法和結構

D.許多小模型

5、構建( )是分析中的經典用例,它是許多常見應用的基礎,

A.預測模型

B.資料模型

C.資料結構

D.程式模塊

6、一個用例是實作一個目標所需步驟的描述,而分析用例是那些需要定義( )的組織所需要的關鍵成功要素之一,

A.程式模板

B.資料結構

C.分析架構

D.物件實體

7、用例分析描述了分析師解決的通用問題和用于解決這些問題的方法和技術,( )可以解決所有分析問題,

A.有一些技術

B.沒有任何一種技術

C.多數現有的技術都

D.不清楚是否有技術

8、為中層管理者需求服務的分析應用專注于( )功能問題,

A.重要的

B.具體的

C.現實的

D.嚴重的

9、基于獨立性、可信性、過往成就的紀錄、緊迫性和( ),企業傾向于更多地依賴外部顧問進行戰略分析,

A.內部資料

B.核心資料

C.外部資料

D.重要資料

10、面向客戶的分析,是指標對( )的分析,

A.業務伙伴

B.企業中層

C.產品下游

D.最終消費者

3、

1、時間序列圖可以分析在固定時間間隔記錄的資料,它通常用( )圖表示,x軸表示時間,y軸記錄資料值,

A.圓餅

B.折線

C.熱區

D.直方

2、在視覺分析中,網路分析是一種側重于分析網路內物體關系的技術,一個網路圖描繪互相連接的( ),它可以是一個人,一個團體,或者其他商業領域的物品,例如產品,

A.物體

B.人體

C.物體

D.虛體

3、視覺分析是一種資料分析,指的是對資料進行( )來開啟或增強視覺感知,相比于文本,人類可以迅速理解影像并得出結論,因此,視覺分析成為大資料領域的勘探工具,

A.數值計算

B.文化虛擬

C.圖形表示

D.字符表示

4、文本分析是專門通過資料挖掘、機器學習和自然語言處理技術去發掘( )文本價值的分析應用,文本分析實質上提供了發現,而不僅僅是搜索文本的能力,

A.自然語言

B.非結構化

C.結構化

D.字符與數值

5、深度學習是一類基于( )的建模訓練技術,

A.資料結構

B.資料規模

C.特征學習

D.模塊層次

6、過濾是自動從專案池中尋找有關專案的程序,專案可以基于用戶行為或通過匹配多個用戶的行為被過濾,通常過濾的主要方法是( ),

A.完全過濾和不完全過濾

B.數值過濾和字符過濾

C.自動過濾和手動過濾

D.協同過濾和內容過濾

7、聚類常用在( )上來理解一個給定資料集的性質,在形成理解之后,分類可以被用來更好地預測相似但卻是全新或未見過的資料,

A.自動計算

B.程式設計

C.資料挖掘

D.數值分析

8、聚類是一種( )的學習技術,通過這項技術,資料被分割成不同的組,每組中的資料有相似的性質,類別是基于分組資料產生的,資料如何成組取決于用什么型別的演算法,

A.手工處理

B.有控制

C.有監督

D.無監督

9、人類善于發現資料中的( ),但不能快速地處理大量的資料,另一方面,機器非常善于迅速處理大量資料,但它們得知道怎么做,如果人類知識可以和機器的處理速度相結合,機器可以處理大量資料而不需要人類干涉,這就是機器學習的基本概念,

A.大小與數量

B.模式與規律

C.模式與關系

D.數量與關系

10、分類是一種( )的機器學習,它將資料分為相關的、以前學習過的類別,這項技術的常見應用是過濾垃圾郵件,

A.完全自動

B.有監督

C.無監督

D.無需控制

11、“無監督學習”指的是那些在( )資料或者缺乏定義因變數的資料中尋找模式的技術,

A.結構化

B.無標簽

C.非結構化

D.有標簽

12、回歸性分析技術旨在探尋在一個資料集內一個( )有著怎樣的關系,

A.外部變數和內部變數

B.小資料變數和大資料變數

C.組織變數和社會變數

D.因變數與自變數

13、在大資料分析中,( )分析可以首先讓用戶發現關系的存在,( )分析可以用于進一步探索關系并且基于自變數的值來預測因變數的值,

A.相關性,回歸性

B.回歸性,相關性

C.相關性,復雜性

D.復雜性,回歸性

14、相關性分析是一種用來確定( )的技術,如果發現它們有關,下一步是確定它們之間是什么關系,

A.兩個變數是否相互獨立

B.兩個變數是否互相有關系

C.多個資料集是否相互獨立

D.多個資料集是否相互有關系

15、統計分析就是用以( )為手段的統計方法來分析資料,

A.計算函式

B.數學公式

C.資料結構

D.程式結構

16、( )是希望通過變換消除原始特征之間的相關關系或減少冗余,得到新的特征,更加便于資料的分析,

A.特征選擇

B.特征運算

C.特征加工

D.特征變換

17、特征工程包含( )、特征選擇、特征構建和特征學習等問題,

A.結構重組

B.特征提取

C.結構簡化

D.資料清洗

18、( )是大資料分析的原材料,對最終模型有著決定性的影響,

A.資料

B.特征

C.資源

D.資訊

19、解決大資料分析問題的一個重要思路就在于減少資料量,可以通過減少描述資料的屬性來達到目的,這就是( )技術,

A.降維

B.減法

C.復合

D.審計

20、一般來說,隨著預測視窗長度的延長,模型預測的精確性會( ),

A.上升

B.反彈

C.下降

D.不確定

21、預測視窗對分析專案的設計有很大影響,它會影響到( ),

A.系統規模的設定

B.系統質量的要求

C.啟動時間的設定

D.分析方法的選擇和資料的選擇

22、預測分析使用的技術可以發現( )之間的關系,從而預測未來的事件和行為,

A.歷史資料

B.原始資料

C.當前資料

D.資料模型

23、在某些情況下,分析師將從文本中提取出的特性補充到預測模型中,稱之為( )問題,

A.檔案分析

B.資料分析

C.文本挖掘

D.數值分析

24、( )和預報包括廣泛應用于企業的一類獨特分析,并且往往嵌入到企業系統中,用于管理制造、物流、門店運營等,

A.時間序列分析

B.業務增長預測

C.蒙特卡洛分析

D.線性增長估算

25、為建立一個完美的模型,更大的分析資料集為分析師帶來了新的機會和問題,但下列( )是錯誤的,

A.更多的用例、更多的觀察結果、更多的資料行

B.更多的變數、更多的特性、更多的資料列

C.更好的演算法和結構

D.許多小模型

4、

1、( )分析用戶興趣,在用戶群中找到指定用戶的相似(興趣)用戶,綜合這些相似用戶對某一資訊的評價,形成對指定用戶對此資訊的喜好程度預測,

A.協同過濾推薦

B.關聯分析推薦

C.基于內容推薦

D.基于平臺推薦

2、數學圖是用來描述系統(如分布式計算機網路)、交通網路,或者一個網站頁面的一個有用的比喻,當使用一個數學圖來建立社會體系模型時,其結果是( )圖,

A.程式流程

B.社交網路

C.網路分析

D.關系鏈接

3、“基于( )的推薦”以規則為基礎,把已購商品作為規則頭,把推薦物件作為規則體,

A.運算規則

B.計算方法

C.分析原理

D.關聯規則

4、采用( )方法,可以通過用戶之間的聯系和用戶之間的相似度來判別用戶之間的關系強度,

A.有監督模型

B.無監督模型

C.強監督網路

D.弱監督網路

5、社交網路的重要成分是物體和( )的關系,因此可以用圖來為社交網路建模,

A.物體間

B.虛體

C.虛體間

D.物體間

6、( )是為一個客戶單獨使用而構建的,因而提供對資料、安全性和服務質量的最有效控制,

A.公有云

B.私有云

C.應用云

D.計算云

7、云計算是基于( )概念的分布式計算,最終用戶只需把任務提交到云端,

A.資料包

B.資訊包

C.檔案夾

D.資源池

8、Apache Spark是一個( )平臺,它可用于基于Hadoop的分布式記憶體高級分析,

A.開源

B.集成

C.商用

D.封閉

9、并行計算的主要效益在于速度和( )可擴展性,

A.可擴展性

B.大容量

C.多樣性

D.高利潤

10、分布式計算是指將行程處理分布于多個( )機器上的能力,

A.超級

B.物理或虛擬

C.計算

D.數字

11、所謂多執行緒處理,是指從軟體或者硬體上實作多個執行緒( )執行(當具備相關資源時)的技術,

A.順序

B.互斥

C.并發

D.合并

12、在一個程式中獨立運行的程式( )叫作“執行緒”,

A.片段

B.代碼

C.模塊

D.機器碼

13、“并行計算”是指:將一個任務分為( )的單元,并將其同時執行的方式,

A.更大

B.獨立

C.完整

D.更小

14、在大資料分析中有很多分析平臺可供選擇,但下列( )選項不是,

A.資料庫分析

B.硬碟分析

C.記憶體分析

D.云計算分析

15、資料是分析的原材料,而分析決定了( )的價值,

A.資料

B.程式

C.系統

D.電腦

16、客觀事物或現象是一個多因素綜合體,模型是被研究物件(客觀事物或現象)的一種抽象,( )是對客觀事物或現象的一種描述,

A.作業日程

B.資料結構

C.分析模型

D.計算方法

17、( )反映物件最本質的東西,略去了枝節,是被研究物件實質性的描述和某種程度的簡化,其目的在便于分析研究,模型可以是數學模型或物理模型,

A.模型

B.結構

C.函式

D.模塊

18、如果兩個或多個變數之間存在一定的( ),那么其中一個變數的狀態就能通過其他變數進行預測,

A.結合

B.沖突

C.變化

D.關聯

19、回歸分析方法是在眾多的相關變數中,根據實際問題考察其中一個或多個變數(因變數)與其余變數(自變數)的( ),

A.結合程度

B.對抗關系

C.依賴關系

D.不同之處

20、在一些問題中,不僅經常需要考察兩個變數之間的相關程度,而且還經常需要考察多個變數與多個變數之間即( )之間的相關關系,

A.數值數字

B.多組變數

C.復雜元素

D.兩組變數

5、

1、簡述計算機虛擬化技術以及常見的虛擬化軟體,

在計算機中,虛擬化(Virtualization)是一種資源管理技術,是將計算機的各種物體資源,如服務器、網路、記憶體及存盤等,予以抽象、轉換后呈現出來,打破物體結構間的不可分割的障礙,使用戶可以比原本的組態更好的方式來應用這些資源,這些資源的新虛擬部分是不受現有資源的架設方式,地域或物理組態所限制,一般所指的虛擬化資源包括計算能力和資料存盤,常見的虛擬化軟體有VirtualBox、VMware Workstation、KVM,

2、簡述大資料集群系統,

集群技術是指通過高速通信網路將一組相互獨立的計算機聯系在一起,組成一個計算機系統,該系統中每一臺計算機都是一個獨立的服務器,運行各自的行程,它們相互之間可以通信,既可以看作是一個個單一的系統,也能夠協同起來為用戶提供服務,對網路用戶來講,后端就像是一個單一的系統,協同向用戶提供系統資源、系統服務,通過網路連接組合成一個組合來共同完一個任務,Hadoop 分布式集群是為了對海量的非結構化資料進行存盤和分析而設計的一種特定的集群,其本質上是一種計算集群,

3、簡述大資料的存盤方式,

存盤系統作為資料中心最核心的資料基礎,不再僅是傳統分散的、單一的底層設備,除了要具備高性能、高安全、高可靠等基于大資料應用需求,“應用定義存盤”概念被提出,主要有以下幾種存盤方式:

1、分布式系統 

2、NoSQL資料庫 

3、云資料庫 

4、大資料存盤技術路線 

1) 采用MPP架構的新型資料庫集群 

2) 基于Hadoop的技術擴展和封裝 

3) 大資料一體機

4、簡述大資料的概念

自2012年以來,“大資料”一詞越來越引起人們的關注,但是,目前為止,在學術研究領域和產業界中,大資料并沒有一個標準的定義,在維克托·邁爾-舍恩伯格撰寫的《大資料時代》一書中大資料指不用隨機分析法(抽樣調查)這樣捷徑,而采用所有資料進行分析處理,而麥肯錫全球研究所則定義大資料為一種規模大到在獲取、存盤、管理、分析方面大大超出了傳統資料庫軟體工具能力范圍的資料集合,具有海量的資料規模、快速的資料流轉、多樣的資料型別和價值密度低四大特征,通常來說,大資料是指資料量超過一定大小,無法用常規的軟體在規定的時間范圍內進行抓取、管理和處理的資料集合,

5、簡述大資料的基本特征

大資料的主要特征可用“5V+1C”來進行概括,分別是:資料量大(Volume)、資料型別多(Variety)、資料時效性強(Velocity)、價值密度低(Value)、準確性高(Veracity)、復雜性高(Complexity),如下圖所示,

img

6、

1、簡述Hadoop系統及其優點

Hadoop是一個能夠讓用戶輕松架構和使用的分布式計算平臺,它主要有以下幾個優點:
(1)高可靠性,
(2)高擴展性,
(3)高效性
(4)高容錯性,

2、簡述 HDFS寫資料的流程

詳細流程如下:
(1)首先HDFS的客戶端通過Distributed FileSystem(HDFS中API里的一個物件);
(2)通過Distributed FileSystem發送客戶端的請求給NameNode(NameNode主要是接受客戶端請求)并且會帶著檔案要保存的位置、 檔案名、操作的用戶名等資訊一起發送給NameNode;
(3)NameNode會給客戶端回傳了一個FSDataOutputStream,同時也會回傳檔案要寫入哪些DataNode上(負載較低的);
(4)通過FSDataOutputStream進行寫操作,在寫之前就做檔案的拆分,將檔案拆分成多個Block,第一個寫操作寫在負載比較低的DataNode上,并將這個block復制到其他的DataNode上;
(5)當所有的block副本復制完成后會反饋給FSDataOutputStream;
(6)當所有的block副本全都復制完成,就可以將FSDataOutputStream流關閉;
(7)通過Distributed FileSystem更新NameNode中的源資料資訊,
HDFS寫資料的流程可如下圖所示:

img

3、簡述Hadoop技術生態系統

Hadoop生態系統主要包括:
HDFS、MapReduce、Spark、Storm、HBase、Hive、Pig、ZooKeeper、 Avro 、Sqoop、Ambari、HCatalog、Chukwa 、Flume、Mahout、Phoenix、Tez、Shark等.
Hadoop開源技術生態系統如下圖所示, 

img

4、簡述Hadoop原理及運行機制

Hadoop的核心由3個子專案組成:Hadoop Common、HDFS、和MapReduce,
Hadoop Common包括檔案系統(File System)、遠程程序呼叫協議(RPC)和資料串行化庫(Serialization Libraries)

5、簡述 HDFS讀資料的流程

詳細流程如下:
(1)首先HDFS的客戶端通過Distributed FileSystem(HDFS中API里的一個物件);
(2)通過Distributed FileSystem發送給NameNode請求,同時將用戶資訊及檔案名的資訊等發送給NameNode,并回傳給DistributedFileSystem,該檔案包含的block所在的DataNode位置;
(3)HDFS客戶端通過FSDataInputStream按順序去讀取DataNode中的block資訊(它會選擇負載最低的或離客戶端最近的一臺DataNode去讀block);
(4)FSDataInputStream按順序一個一個的讀,直到所有的block都讀取完畢;(5)當讀取完畢后會將FSDataInputStream關閉,

img

7、

1、3種鳶尾花資料(萼片寬度、萼片長度、 花瓣寬度、花瓣長度)為: (4.9,3.0,1.4,0.2)、(5.0,3.6,1.4,0.2)、(5.2,2.7,3.9,1.4)、(6.1,2.9,4.7,1.4)、(7.7,2.6,6.9,2.3)、(6.6,2.9,4.6,1.3)、(4.4,3.2,1.3,0.2)、(5.7,2.8,4.1,1.3),計算其聚類中心并將資料進行分類

參見《大資料技術與應用》第9章第3節

2、簡述Spark開源框架及其特點

Spark架構采用了分布式計算中的Master-Slave模型,Spark架構如下圖所示: 

img

3、簡述Spark生態系統及其主要組件

Spark主要包括Spark Core和在Spark Core基礎之上建立的應用框架Spark SQL、Spark Streaming、MLlib和GraphX,如下圖所示,

除了這些庫以外,還有一些其他的庫,如BlinkDB和Tachyon,此外,還有一些用于與其他產品集成的配接器,如Cassandra(Spark Cassandra連接器)和R(SparkR), 

img

8、

1、過一系列處理,在基本保持原始資料完整性的基礎上,減小資料規模的是( )

A.資料清洗

B.資料融合

C.資料規約

D.資料挖掘

2、大資料的最顯著特征是( ),

A.資料規模大

B.資料型別多樣

C.資料處理速度快

D.資料價值密度高

3、下列關于大資料的分析理念的說法中,錯誤的是( ),

A.在資料基礎上傾向于全體資料而不是抽樣資料

B.在分析方法上更注重相關分析而不是因果分析

C.在分析效果上更追究效率而不是絕對精確

D.在資料規模上強調相對資料而不是絕對資料

4、大資料的4V特征中的Velocity是指( ),

A.價值密度低

B.處理速度快

C.資料型別繁多

D.資料體量巨大

5、大資料的起源是( ),

A.金融

B.電信

C.互聯網

D.公共管理

6、下列演示方式中,不屬于傳統統計圖方式的是( ),

A.柱形圖

B.餅狀圖

C.曲線圖

D.網路圖

7、下列關于舍恩伯格對大資料特點的說法中,錯誤的是( )

A.資料規模大

B.資料型別多樣

C.資料處理速度快

D.資料價值密度高

8、大資料不是要教機器像人一樣思考,相反,它是( ),

A.把數學演算法運用到海量的資料上來預測事情發生的可能性

B.被視為人工智能的一部

C.被視為一種機器學習

D.預測與懲罰

9、HDfS 中的 block 默認保存幾份?

A.3 份

B.2 份

C.1 份

D.不確定

10、HDFS 默認 Block Size 是()

A.32MB

B.64MB

C.128MB

11、下列哪項通常是集群的最主要瓶頸?

A.CPU

B.網路

C.磁盤IO

D.記憶體

12、下面哪個程式負責 HDFS 資料存盤( ),

A.NameNode

B.Jobtracker

C.Datanode

D.secondaryNameNode

13、配置Hadoop時,JAVA_HOME包含在哪一個組態檔中( )

A.hadoop-default.xml

B.hadoop-env.sh

C.hadoop-site.xml

D.configuration.xs

14、下列關于Hadoop API的說法錯誤的是( ),

A.Hadoop的檔案API不是通用的,只用于HDFS檔案系統

B.Configuration類的默認實體化方法是以HDFS系統的資源配置為基礎的

C.FileStatus物件存盤檔案和目錄的元資料

D.FSDataInputStream是java.io.DataInputStream的子類

15、下列哪個程式通常與NameNode 在一個節點啟動?( )

A.SecondaryNameNode

B.DataNode

C.TaskTracker

D.Jobtracker

16、下面與 HDFS 類似的框架是?( )

A.NTFS

B.FAT32

C.GFS

D.EXT3

17、HBase中的批量加載底層使用( )實作,

A.MapReduce
B.Hive

C.Coprocessor

D.Bloom Filter

18、從大量資料中提取知識的程序通常稱為( ),

A.資料挖掘

B.人工智能

C.資料清洗

D.資料倉庫

19、Hadoop fs中的-get和-put命令操作物件是( )、

A.檔案

B.目錄

C.兩者都是

20、HDFS默認的當前作業目錄是/user/$USER,fs.default.name的值需要在哪個組態檔內說明

A.mapred-site.xml

B.core-site.xml

C.hdfs-site.xml

D.以上均不是

A.資料規模大

B.資料型別多樣

C.資料處理速度快

D.資料價值密度高

8、大資料不是要教機器像人一樣思考,相反,它是( ),

A.把數學演算法運用到海量的資料上來預測事情發生的可能性

B.被視為人工智能的一部

C.被視為一種機器學習

D.預測與懲罰

9、HDfS 中的 block 默認保存幾份?

A.3 份

B.2 份

C.1 份

D.不確定

10、HDFS 默認 Block Size 是()

A.32MB

B.64MB

C.128MB

11、下列哪項通常是集群的最主要瓶頸?

A.CPU

B.網路

C.磁盤IO

D.記憶體

12、下面哪個程式負責 HDFS 資料存盤( ),

A.NameNode

B.Jobtracker

C.Datanode

D.secondaryNameNode

13、配置Hadoop時,JAVA_HOME包含在哪一個組態檔中( )

A.hadoop-default.xml

B.hadoop-env.sh

C.hadoop-site.xml

D.configuration.xs

14、下列關于Hadoop API的說法錯誤的是( ),

A.Hadoop的檔案API不是通用的,只用于HDFS檔案系統

B.Configuration類的默認實體化方法是以HDFS系統的資源配置為基礎的

C.FileStatus物件存盤檔案和目錄的元資料

D.FSDataInputStream是java.io.DataInputStream的子類

15、下列哪個程式通常與NameNode 在一個節點啟動?( )

A.SecondaryNameNode

B.DataNode

C.TaskTracker

D.Jobtracker

16、下面與 HDFS 類似的框架是?( )

A.NTFS

B.FAT32

C.GFS

D.EXT3

17、HBase中的批量加載底層使用( )實作,

A.MapReduce
B.Hive

C.Coprocessor

D.Bloom Filter

18、從大量資料中提取知識的程序通常稱為( ),

A.資料挖掘

B.人工智能

C.資料清洗

D.資料倉庫

19、Hadoop fs中的-get和-put命令操作物件是( )、

A.檔案

B.目錄

C.兩者都是

20、HDFS默認的當前作業目錄是/user/$USER,fs.default.name的值需要在哪個組態檔內說明

A.mapred-site.xml

B.core-site.xml

C.hdfs-site.xml

D.以上均不是

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/387832.html

標籤:其他

上一篇:Java的集合框架---API檔案深入研究3.0

下一篇:客快物流大資料專案(二):物流專案詳細介紹

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 2023年最新微信小程式抓包教程

    01 開門見山 隔一個月發一篇文章,不過分。 首先回顧一下《微信系結手機號資料庫被脫庫事件》,我也是第一時間得知了這個訊息,然后跟蹤了整件事情的經過。下面是這起事件的相關截圖以及近日流出的一萬條資料樣本: 個人認為這件事也沒什么,還不如關注一下之前45億快遞資料查詢渠道疑似在近日復活的訊息。 訊息是 ......

    uj5u.com 2023-04-20 08:48:24 more
  • web3 產品介紹:metamask 錢包 使用最多的瀏覽器插件錢包

    Metamask錢包是一種基于區塊鏈技術的數字貨幣錢包,它允許用戶在安全、便捷的環境下管理自己的加密資產。Metamask錢包是以太坊生態系統中最流行的錢包之一,它具有易于使用、安全性高和功能強大等優點。 本文將詳細介紹Metamask錢包的功能和使用方法。 一、 Metamask錢包的功能 數字資 ......

    uj5u.com 2023-04-20 08:47:46 more
  • vulnhub_Earth

    前言 靶機地址->>>vulnhub_Earth 攻擊機ip:192.168.20.121 靶機ip:192.168.20.122 參考文章 https://www.cnblogs.com/Jing-X/archive/2022/04/03/16097695.html https://www.cnb ......

    uj5u.com 2023-04-20 07:46:20 more
  • 從4k到42k,軟體測驗工程師的漲薪史,給我看哭了

    清明節一過,盲猜大家已經無心上班,在數著日子準備過五一,但一想到銀行卡里的余額……瞬間心情就不美麗了。最近,2023年高校畢業生就業調查顯示,本科畢業月平均起薪為5825元。調查一出,便有很多同學表示自己又被平均了。看著這一資料,不免讓人想到前不久中國青年報的一項調查:近六成大學生認為畢業10年內會 ......

    uj5u.com 2023-04-20 07:44:00 more
  • 最新版本 Stable Diffusion 開源 AI 繪畫工具之中文自動提詞篇

    🎈 標簽生成器 由于輸入正向提示詞 prompt 和反向提示詞 negative prompt 都是使用英文,所以對學習母語的我們非常不友好 使用網址:https://tinygeeker.github.io/p/ai-prompt-generator 這個網址是為了讓大家在使用 AI 繪畫的時候 ......

    uj5u.com 2023-04-20 07:43:36 more
  • 漫談前端自動化測驗演進之路及測驗工具分析

    隨著前端技術的不斷發展和應用程式的日益復雜,前端自動化測驗也在不斷演進。隨著 Web 應用程式變得越來越復雜,自動化測驗的需求也越來越高。如今,自動化測驗已經成為 Web 應用程式開發程序中不可或缺的一部分,它們可以幫助開發人員更快地發現和修復錯誤,提高應用程式的性能和可靠性。 ......

    uj5u.com 2023-04-20 07:43:16 more
  • CANN開發實踐:4個DVPP記憶體問題的典型案例解讀

    摘要:由于DVPP媒體資料處理功能對存放輸入、輸出資料的記憶體有更高的要求(例如,記憶體首地址128位元組對齊),因此需呼叫專用的記憶體申請介面,那么本期就分享幾個關于DVPP記憶體問題的典型案例,并給出原因分析及解決方法。 本文分享自華為云社區《FAQ_DVPP記憶體問題案例》,作者:昇騰CANN。 DVPP ......

    uj5u.com 2023-04-20 07:43:03 more
  • msf學習

    msf學習 以kali自帶的msf為例 一、msf核心模塊與功能 msf模塊都放在/usr/share/metasploit-framework/modules目錄下 1、auxiliary 輔助模塊,輔助滲透(埠掃描、登錄密碼爆破、漏洞驗證等) 2、encoders 編碼器模塊,主要包含各種編碼 ......

    uj5u.com 2023-04-20 07:42:59 more
  • Halcon軟體安裝與界面簡介

    1. 下載Halcon17版本到到本地 2. 雙擊安裝包后 3. 步驟如下 1.2 Halcon軟體安裝 界面分為四大塊 1. Halcon的五個助手 1) 影像采集助手:與相機連接,設定相機引數,采集影像 2) 標定助手:九點標定或是其它的標定,生成標定檔案及內參外參,可以將像素單位轉換為長度單位 ......

    uj5u.com 2023-04-20 07:42:17 more
  • 在MacOS下使用Unity3D開發游戲

    第一次發博客,先發一下我的游戲開發環境吧。 去年2月份買了一臺MacBookPro2021 M1pro(以下簡稱mbp),這一年來一直在用mbp開發游戲。我大致分享一下我的開發工具以及使用體驗。 1、Unity 官網鏈接: https://unity.cn/releases 我一般使用的Apple ......

    uj5u.com 2023-04-20 07:40:19 more