1、什么是大資料?

1.1、概念:

大資料本身是一個抽象的概念，

從一般意義上講，大資料是指無法在有限時間內用常規軟體工具對其進行獲取、存盤、管理和處理的資料集合，

一般情況下,如果當前的工具無法處理一個資料集的話,那么這個資料集在當下就會被稱之是大資料集;

目前，業界對大資料還沒有一個統一的定義，但是大家普遍認為，大資料具備 Volume、Velocity、Variety 和 Value 四個特征，簡稱“4V”，即資料體量巨大、資料速度快、資料型別繁多和資料價值密度低，主要有4V特征: 1）Volume：表示大資料的資料體量巨大，資料集合的規模不斷擴大，已經從 GB 級增加到 TB 級再增加到 PB 級，近年來，資料量甚至開始以 EB 和 ZB 來計數，例如，一個中型城市的視頻監控資訊一天就能達到幾十 TB 的資料量，百度首頁導航每天需要提供的資料超過 1-5PB，如果將這些資料列印出來，會超過 5000 億張 A4 紙，圖 2 展示了每分鐘互聯網產生的各類資料的量，

2）Velocity：表示大資料的資料產生、處理和分析的速度在持續加快，

加速的原因是資料創建的實時性特點，以及將流資料結合到業務流程和決策程序中的需求，

資料處理速度快，處理模式已經開始從批處理轉向流處理，

業界對大資料的處理能力有一個稱謂——“ 1 秒定律”，也就是說，可以從各種型別的資料中快速獲得高價值的資訊，大資料的快速處理能力充分體現出它與傳統的資料處理技術的本質區別，

3）Variety：表示大資料的資料型別繁多，

傳統 IT 產業產生和處理的資料型別較為單一，大部分是結構化資料，

隨著傳感器、智能設備、社交網路、物聯網、移動計算、在線廣告等新的渠道和技術不斷涌現，產生的資料型別無以計數，

現在的資料型別不再只是格式化資料，更多的是半結構化或者非結構化資料，如 XML、郵件、博客、即時訊息、視頻、照片、點擊流、日志檔案等，

企業需要整合、存盤和分析來自復雜的傳統和非傳統資訊源的資料，包括企業內部和外部的資料，

4）Value：表示大資料的資料價值密度低，

大資料由于體量不斷加大，單位資料的價值密度在不斷降低，然而資料的整體價值在提高，

以監控視頻為例，在一小時的視頻中，有用的資料可能僅僅只有一兩秒，但是卻會非常重要，

現在許多專家已經將大資料等同于黃金和石油，這表示大資料當中蘊含了無限的商業價值，

根據中商產業研究院發布的《2018-2023 年中國大資料產業市場前景及投資機會研究報告》顯示，2017 年中國大資料產業規模達到 4700 億元，同比增長 30%，

隨著大資料在各行業的融合應用不斷深化，預計 2018 年中國大資料市場產值將突破 6000 億元達到 6200 億元，

通過對大資料進行處理，找出其中潛在的商業價值，將會產生巨大的商業利潤，

1.2、大資料的產生:

大資料是資訊通信技術發展積累至今，按照自身技術發展邏輯，從提高生產效率向更高級智能階段的自然生長，

無處不在的資訊感知和采集終端為我們采集了海量的資料，而以云計算為代表的計算技術的不斷進步，為我們提供了強大的計算能力，

從采用資料庫作為資料管理的主要方式開始，人類社會的資料產生方式大致經歷了 3 個階段，而正是資料產生方式的巨大變化才最終導致大資料的產生，

1）運營式系統階段，

資料庫的出現使得資料管理的復雜度大大降低，在實際使用中，資料庫大多為運營系統所采用，作為運營系統的資料管理子系統，如超市的銷售記錄系統、銀行的交易記錄系統、醫院病人的醫療記錄等，

人類社會資料量的第一次大的飛躍正是在運營式系統開始廣泛使用資料庫時開始的，

這個階段的最主要特點是，資料的產生往往伴隨著一定的運營活動；而且資料是記錄在資料庫中的，例如，商店每售出一件產品就會在資料庫中產生一條相應的銷售記錄，這種資料的產生方式是被動的，

2）用戶原創內容階段，

互聯網的誕生促使人類社會資料量出現第二次大的飛躍，但是真正的資料爆發產生于 Web 2.0 時代，而 Web 2.0 的最重要標志就是用戶原創內容，這類資料近幾年一直呈現爆炸性的增長，主要有以下兩個方面的原因，

是以博客、微博和微信為代表的新型社交網路的岀現和快速發展，使得用戶產生資料的意愿更加強烈，
是以智能手機、平板電腦為代表的新型移動設備的出現，這些易攜帶、全天候接入網路的移動設備使得人們在網上發表自己意見的途徑更為便捷，這個階段的資料產生方式是主動的，

3）感知式系統階段，

人類社會資料量第三次大的飛躍最終導致了大資料的產生，今天我們正處于這個階段，這次飛躍的根本原因在于感知式系統的廣泛使用，

隨著技術的發展，人們已經有能力制造極其微小的帶有處理功能的傳感器，并開始將這些設備廣泛地布置于社會的各個角落，通過這些設備來對整個社會的運轉進行監控，

這些設備會源源不斷地產生新資料，這種資料的產生方式是自動的，

簡單來說，資料產生經歷了被動、主動和自動三個階段，這些被動、主動和自動的資料共同構成了大資料的資料來源，但其中自動式的資料才是大資料產生的最根本原因，

2、大資料產生的意義?

2.1、大資料的作用已經意義:

大資料雖然孕育于資訊通信技術，但它對社會、經濟、生活產生的影響絕不限于技術層面，

更本質上，它是為我們看待世界提供了一種全新的方法，即決策行為將日益基于資料分析，而不是像過去更多憑借經驗和直覺，具體來講，大資料將有以下作用，

1）對大資料的處理分析正成為新一代資訊技術融合應用的結點，

移動互聯網、物聯網、社交網路、數字家庭、電子商務等是新一代資訊技術的應用形態，這些應用不斷產生大資料，

云計算為這些海量、多樣化的大資料提供存盤和運算平臺，通過對不同來源資料的管理、處理、分析與優化，將結果反饋到上述應用中，將創造出巨大的經濟和社會價值，大資料具有催生社會變革的能量，

2）大資料是資訊產業持續高速增長的新引擎，

面向大資料市場的新技術、新產品、新服務、新業態會不斷涌現，在硬體與集成設備領域，大資料將對芯片、存盤產業產生重要影響，還將催生出一體化資料存盤處理服務器、記憶體計算等市場，

在軟體與服務領域，大資料將引發資料快速處理分析技術、資料挖掘技術和軟體產品的發展，

3）大資料利用將成為提高核心競爭力的關鍵因素，

各行各業的決策正在從“業務驅動”向“資料驅動”轉變，在商業領域，對大資料的分析可以使零售商實時掌握市場動態并迅速做出應對，可以為商家制定更加精準有效的營銷策略提供決策支持，可以幫助企業為消費者提供更加及時和個性化的服務，

在醫療領域，可提高診斷準確性和藥物有效性，

在公共事業領域，大資料也開始發揮促進經濟發展、維護社會穩定等方面的重要作用，

4）大資料時代，科學研究的方法手段將發生重大改變，

例如，抽樣調查是社會科學的基本研究方法，在大資料時代，研究人員可通過實時監測、跟蹤研究物件在互聯網上產生的海量行為資料，進行挖掘分析，揭示出規律性的東西，提出研究結論和對策，

3、大資料的處理流程?

大資料的資料來源廣泛，應用需求和資料型別都不盡相同，但是最基本的處理流程是一致的，

整個大資料的處理流程可以定義為，在合適工具的輔助下，對廣泛異構的資料源進行抽取和集成，將結果按照一定的標準進行統一存盤，然后利用合適的資料分析技術對存盤的資料進行分析，從中提取有益的知識，并利用恰當的方式將結果展現給終端用戶，

具體來講，大資料處理的基本流程可以分為資料抽取與集成、資料分析和資料解釋等步驟，

3.1、資料的抽取與集成

大資料的一個重要特點就是多樣性，這就意味著資料來源極其廣泛，資料型別極為繁雜，這種復雜的資料環境給大資料的處理帶來極大的挑戰，

要想處理大資料，首先必須對所需資料源的資料進行抽取和集成，從中提取出資料的物體和關系，經過關聯和聚合之后采用統一定義的結構來存盤這些資料，

在資料集成和提取時，需要對資料進行清洗，保證資料質量及可信性，同時還要特別注意大資料時代資料模式和資料的關系，大資料時代的資料往往是先有資料再有模式，并且模式是在不斷的動態演化之中的，

資料抽取和集成技術并不是一項全新的技術，在傳統資料庫領域此問題就已經得到了比較成熟的研究，隨著新的資料源的涌現，資料集成方法也在不斷的發展之中，

從資料集成模型來看，現有的資料抽取與集成方式可以大致分為 4 種型別：基于物化或 ETL 方法的引擎、基于聯邦資料庫或中間件方法的引擎、基于資料流方法的引擎，以及基于搜索引擎的方法，

ETL 資料清洗工程師

ETL，是英文Extract-Transform-Load的縮寫，用來描述將資料從來源端經過萃取（extract）、轉置（transform）、加載（load）至目的端的程序，ETL一詞較常用在資料倉庫，但其物件并不限于資料倉庫，

意義 : 把非結構化不能處理的資料轉成結構化可以處理的資料 hive hbase

3.2、資料分析

資料分析是整個大資料處理流程的核心，大資料的價值產生于分析程序，

從異構資料源抽取和集成的資料構成了資料分析的原始資料，

根據不同應用的需求可以從這些資料中選擇全部或部分進行分析，

小資料時代的分析技術，如統計分析、資料挖掘和機器學習等，并不能適應大資料時代資料分析的需求，必須做出調整，

大資料時代的資料分析技術面臨著一些新的挑戰,主要有以下幾點，

1）資料量大并不一定意味著資料價值的增加，相反這往往意味著資料噪音的增多，

因此,在資料分析之前必須進行資料清洗等預處理作業，但是預處理如此大量的資料，對于計算資源和處理演算法來講都是非常嚴峻的考驗，

2）大資料時代的演算法需要進行調整， --> java Math 類掌握

首先，大資料的應用常常具有實時性的特點，演算法的準確率不再是大資料應用的最主要指標，在很多場景中，演算法需要在處理的實時性和準確率之間取得一個平衡，

其次，分布式并發計算系統是進行大資料處理的有力工具，這就要求很多演算法必須做出調整以適應分布式并發的計算框架，演算法需要變得具有可擴展性，

許多傳統的資料挖掘演算法都是線性執行的，面對海量的資料很難在合理的時間內獲取所需的結果，因此需要重新把這些演算法實作成可以并發執行的演算法，以便完成對大資料的處理，

最后，在選擇演算法處理大資料時必須謹慎，當資料量增長到一定規模以后，可以從小量資料中挖掘出有效資訊的演算法并一定適用于大資料，

3）資料結果的衡量標準，

對大資料進行分析比較困難，但是對大資料分析結果好壞的衡量卻是大資料時代資料分析面臨的更大挑戰，

大資料時代的資料量大，型別混雜，產生速度快，進行分析的時候往往對整個資料的分布特點掌握得不太清楚，從而會導致在設計衡量的方法和指標的時候遇到許多困難，

ps: 數倉、數開、資料挖掘的職位就在第二階段

3.3、資料解釋

資料分析是大資料處理的核心，但是用戶往往更關心對結果的解釋，如果分析的結果正確，但是沒有采用適當的方法進行解釋，則所得到的結果很可能讓用戶難以理解，極端情況下甚至會引起用戶的誤解，資料解釋的方法很多，比較傳統的解釋方式就是以文本形式輸出結果或者直接在電腦終端上顯示結果，這些方法在面對小資料量時是一種可行的選擇，但是大資料時代的資料分析結果往往也是海量的，同時結果之間的關聯關系極其復雜，采用傳統的簡單解釋方法幾乎是不可行的，

解釋大資料分析結果時，可以考慮從以下兩個方面提升資料解釋能力，

1）引入可視化技術，可視化作為解釋大量資料最有效的手段之一率先被科學與工程計算領域采用，該方法通過將分析結果以可視化的方式向用戶展示，可以使用戶更易理解和接受，常見的可視化技術有標簽云、歷史流、空間資訊流等，

2）讓用戶能夠在一定程度上了解和參與具體的分析程序，這方面既可以采用人機互動技術，利用互動式的資料分析程序來引導用戶逐步地進行分析，使得用戶在得到結果的同時更好地理解分析結果的程序，也可以采用資料溯源技術追溯整個資料分析的程序，幫助用戶理解結果，

1、什么是大資料?

1.1、概念:

大資料本身是一個抽象的概念，

從一般意義上講，大資料是指無法在有限時間內用常規軟體工具對其進行獲取、存盤、管理和處理的資料集合，

一般情況下,如果當前的工具無法處理一個資料集的話,那么這個資料集在當下就會被稱之是大資料集;

目前，業界對大資料還沒有一個統一的定義，但是大家普遍認為，大資料具備 Volume、Velocity、Variety 和 Value 四個特征，簡稱“4V”，即資料體量巨大、資料速度快、資料型別繁多和資料價值密度低，主要有4V特征: 1）Volume：表示大資料的資料體量巨大，資料集合的規模不斷擴大，已經從 GB 級增加到 TB 級再增加到 PB 級，近年來，資料量甚至開始以 EB 和 ZB 來計數，例如，一個中型城市的視頻監控資訊一天就能達到幾十 TB 的資料量，百度首頁導航每天需要提供的資料超過 1-5PB，如果將這些資料列印出來，會超過 5000 億張 A4 紙，圖 2 展示了每分鐘互聯網產生的各類資料的量，

2）Velocity：表示大資料的資料產生、處理和分析的速度在持續加快，

加速的原因是資料創建的實時性特點，以及將流資料結合到業務流程和決策程序中的需求，

資料處理速度快，處理模式已經開始從批處理轉向流處理，

業界對大資料的處理能力有一個稱謂——“ 1 秒定律”，也就是說，可以從各種型別的資料中快速獲得高價值的資訊，大資料的快速處理能力充分體現出它與傳統的資料處理技術的本質區別，

3）Variety：表示大資料的資料型別繁多，

傳統 IT 產業產生和處理的資料型別較為單一，大部分是結構化資料，

隨著傳感器、智能設備、社交網路、物聯網、移動計算、在線廣告等新的渠道和技術不斷涌現，產生的資料型別無以計數，

現在的資料型別不再只是格式化資料，更多的是半結構化或者非結構化資料，如 XML、郵件、博客、即時訊息、視頻、照片、點擊流、日志檔案等，

企業需要整合、存盤和分析來自復雜的傳統和非傳統資訊源的資料，包括企業內部和外部的資料，

4）Value：表示大資料的資料價值密度低，

大資料由于體量不斷加大，單位資料的價值密度在不斷降低，然而資料的整體價值在提高，

以監控視頻為例，在一小時的視頻中，有用的資料可能僅僅只有一兩秒，但是卻會非常重要，

現在許多專家已經將大資料等同于黃金和石油，這表示大資料當中蘊含了無限的商業價值，

根據中商產業研究院發布的《2018-2023 年中國大資料產業市場前景及投資機會研究報告》顯示，2017 年中國大資料產業規模達到 4700 億元，同比增長 30%，

隨著大資料在各行業的融合應用不斷深化，預計 2018 年中國大資料市場產值將突破 6000 億元達到 6200 億元，

通過對大資料進行處理，找出其中潛在的商業價值，將會產生巨大的商業利潤，

1.2、大資料的產生:

大資料是資訊通信技術發展積累至今，按照自身技術發展邏輯，從提高生產效率向更高級智能階段的自然生長，

無處不在的資訊感知和采集終端為我們采集了海量的資料，而以云計算為代表的計算技術的不斷進步，為我們提供了強大的計算能力，

從采用資料庫作為資料管理的主要方式開始，人類社會的資料產生方式大致經歷了 3 個階段，而正是資料產生方式的巨大變化才最終導致大資料的產生，

1）運營式系統階段，

資料庫的出現使得資料管理的復雜度大大降低，在實際使用中，資料庫大多為運營系統所采用，作為運營系統的資料管理子系統，如超市的銷售記錄系統、銀行的交易記錄系統、醫院病人的醫療記錄等，

人類社會資料量的第一次大的飛躍正是在運營式系統開始廣泛使用資料庫時開始的，

這個階段的最主要特點是，資料的產生往往伴隨著一定的運營活動；而且資料是記錄在資料庫中的，例如，商店每售出一件產品就會在資料庫中產生一條相應的銷售記錄，這種資料的產生方式是被動的，

2）用戶原創內容階段，

互聯網的誕生促使人類社會資料量出現第二次大的飛躍，但是真正的資料爆發產生于 Web 2.0 時代，而 Web 2.0 的最重要標志就是用戶原創內容，這類資料近幾年一直呈現爆炸性的增長，主要有以下兩個方面的原因，

是以博客、微博和微信為代表的新型社交網路的岀現和快速發展，使得用戶產生資料的意愿更加強烈，
是以智能手機、平板電腦為代表的新型移動設備的出現，這些易攜帶、全天候接入網路的移動設備使得人們在網上發表自己意見的途徑更為便捷，這個階段的資料產生方式是主動的，

3）感知式系統階段，

人類社會資料量第三次大的飛躍最終導致了大資料的產生，今天我們正處于這個階段，這次飛躍的根本原因在于感知式系統的廣泛使用，

隨著技術的發展，人們已經有能力制造極其微小的帶有處理功能的傳感器，并開始將這些設備廣泛地布置于社會的各個角落，通過這些設備來對整個社會的運轉進行監控，

這些設備會源源不斷地產生新資料，這種資料的產生方式是自動的，

簡單來說，資料產生經歷了被動、主動和自動三個階段，這些被動、主動和自動的資料共同構成了大資料的資料來源，但其中自動式的資料才是大資料產生的最根本原因，

2、大資料產生的意義?

2.1、大資料的作用已經意義:

大資料雖然孕育于資訊通信技術，但它對社會、經濟、生活產生的影響絕不限于技術層面，

更本質上，它是為我們看待世界提供了一種全新的方法，即決策行為將日益基于資料分析，而不是像過去更多憑借經驗和直覺，具體來講，大資料將有以下作用，

1）對大資料的處理分析正成為新一代資訊技術融合應用的結點，

移動互聯網、物聯網、社交網路、數字家庭、電子商務等是新一代資訊技術的應用形態，這些應用不斷產生大資料，

云計算為這些海量、多樣化的大資料提供存盤和運算平臺，通過對不同來源資料的管理、處理、分析與優化，將結果反饋到上述應用中，將創造出巨大的經濟和社會價值，大資料具有催生社會變革的能量，

2）大資料是資訊產業持續高速增長的新引擎，

面向大資料市場的新技術、新產品、新服務、新業態會不斷涌現，在硬體與集成設備領域，大資料將對芯片、存盤產業產生重要影響，還將催生出一體化資料存盤處理服務器、記憶體計算等市場，

在軟體與服務領域，大資料將引發資料快速處理分析技術、資料挖掘技術和軟體產品的發展，

3）大資料利用將成為提高核心競爭力的關鍵因素，

各行各業的決策正在從“業務驅動”向“資料驅動”轉變，在商業領域，對大資料的分析可以使零售商實時掌握市場動態并迅速做出應對，可以為商家制定更加精準有效的營銷策略提供決策支持，可以幫助企業為消費者提供更加及時和個性化的服務，

在醫療領域，可提高診斷準確性和藥物有效性，

在公共事業領域，大資料也開始發揮促進經濟發展、維護社會穩定等方面的重要作用，

4）大資料時代，科學研究的方法手段將發生重大改變，

例如，抽樣調查是社會科學的基本研究方法，在大資料時代，研究人員可通過實時監測、跟蹤研究物件在互聯網上產生的海量行為資料，進行挖掘分析，揭示出規律性的東西，提出研究結論和對策，

3、大資料的處理流程?

大資料的資料來源廣泛，應用需求和資料型別都不盡相同，但是最基本的處理流程是一致的，

整個大資料的處理流程可以定義為，在合適工具的輔助下，對廣泛異構的資料源進行抽取和集成，將結果按照一定的標準進行統一存盤，然后利用合適的資料分析技術對存盤的資料進行分析，從中提取有益的知識，并利用恰當的方式將結果展現給終端用戶，

具體來講，大資料處理的基本流程可以分為資料抽取與集成、資料分析和資料解釋等步驟，

3.1、資料的抽取與集成

大資料的一個重要特點就是多樣性，這就意味著資料來源極其廣泛，資料型別極為繁雜，這種復雜的資料環境給大資料的處理帶來極大的挑戰，

要想處理大資料，首先必須對所需資料源的資料進行抽取和集成，從中提取出資料的物體和關系，經過關聯和聚合之后采用統一定義的結構來存盤這些資料，

在資料集成和提取時，需要對資料進行清洗，保證資料質量及可信性，同時還要特別注意大資料時代資料模式和資料的關系，大資料時代的資料往往是先有資料再有模式，并且模式是在不斷的動態演化之中的，

資料抽取和集成技術并不是一項全新的技術，在傳統資料庫領域此問題就已經得到了比較成熟的研究，隨著新的資料源的涌現，資料集成方法也在不斷的發展之中，

從資料集成模型來看，現有的資料抽取與集成方式可以大致分為 4 種型別：基于物化或 ETL 方法的引擎、基于聯邦資料庫或中間件方法的引擎、基于資料流方法的引擎，以及基于搜索引擎的方法，

ETL 資料清洗工程師

ETL，是英文Extract-Transform-Load的縮寫，用來描述將資料從來源端經過萃取（extract）、轉置（transform）、加載（load）至目的端的程序，ETL一詞較常用在資料倉庫，但其物件并不限于資料倉庫，

意義 : 把非結構化不能處理的資料轉成結構化可以處理的資料 hive hbase

3.2、資料分析

資料分析是整個大資料處理流程的核心，大資料的價值產生于分析程序，

從異構資料源抽取和集成的資料構成了資料分析的原始資料，

根據不同應用的需求可以從這些資料中選擇全部或部分進行分析，

小資料時代的分析技術，如統計分析、資料挖掘和機器學習等，并不能適應大資料時代資料分析的需求，必須做出調整，

大資料時代的資料分析技術面臨著一些新的挑戰,主要有以下幾點，

1）資料量大并不一定意味著資料價值的增加，相反這往往意味著資料噪音的增多，

因此,在資料分析之前必須進行資料清洗等預處理作業，但是預處理如此大量的資料，對于計算資源和處理演算法來講都是非常嚴峻的考驗，

2）大資料時代的演算法需要進行調整， --> java Math 類掌握

首先，大資料的應用常常具有實時性的特點，演算法的準確率不再是大資料應用的最主要指標，在很多場景中，演算法需要在處理的實時性和準確率之間取得一個平衡，

其次，分布式并發計算系統是進行大資料處理的有力工具，這就要求很多演算法必須做出調整以適應分布式并發的計算框架，演算法需要變得具有可擴展性，

許多傳統的資料挖掘演算法都是線性執行的，面對海量的資料很難在合理的時間內獲取所需的結果，因此需要重新把這些演算法實作成可以并發執行的演算法，以便完成對大資料的處理，

最后，在選擇演算法處理大資料時必須謹慎，當資料量增長到一定規模以后，可以從小量資料中挖掘出有效資訊的演算法并一定適用于大資料，

3）資料結果的衡量標準，

對大資料進行分析比較困難，但是對大資料分析結果好壞的衡量卻是大資料時代資料分析面臨的更大挑戰，

大資料時代的資料量大，型別混雜，產生速度快，進行分析的時候往往對整個資料的分布特點掌握得不太清楚，從而會導致在設計衡量的方法和指標的時候遇到許多困難，

ps: 數倉、數開、資料挖掘的職位就在第二階段

3.3、資料解釋

資料分析是大資料處理的核心，但是用戶往往更關心對結果的解釋，如果分析的結果正確，但是沒有采用適當的方法進行解釋，則所得到的結果很可能讓用戶難以理解，極端情況下甚至會引起用戶的誤解，資料解釋的方法很多，比較傳統的解釋方式就是以文本形式輸出結果或者直接在電腦終端上顯示結果，這些方法在面對小資料量時是一種可行的選擇，但是大資料時代的資料分析結果往往也是海量的，同時結果之間的關聯關系極其復雜，采用傳統的簡單解釋方法幾乎是不可行的，

解釋大資料分析結果時，可以考慮從以下兩個方面提升資料解釋能力，

1）引入可視化技術，可視化作為解釋大量資料最有效的手段之一率先被科學與工程計算領域采用，該方法通過將分析結果以可視化的方式向用戶展示，可以使用戶更易理解和接受，常見的可視化技術有標簽云、歷史流、空間資訊流等，

2）讓用戶能夠在一定程度上了解和參與具體的分析程序，這方面既可以采用人機互動技術，利用互動式的資料分析程序來引導用戶逐步地進行分析，使得用戶在得到結果的同時更好地理解分析結果的程序，也可以采用資料溯源技術追溯整個資料分析的程序，幫助用戶理解結果，

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/230207.html

標籤：其他

上一篇：日語學習筆記整理（漢譯日）

下一篇：1492. The kth Factor of n (M)

認識大資料

1、什么是大資料?

1.1、概念:

1.2、大資料的產生:

1）運營式系統階段，

2）用戶原創內容階段，

3）感知式系統階段，

2、大資料產生的意義?

2.1、大資料的作用已經意義:

3、大資料的處理流程?

3.1、資料的抽取與集成

3.2、資料分析

3.3、資料解釋

1、什么是大資料?

1.1、概念:

1.2、大資料的產生:

1）運營式系統階段，

2）用戶原創內容階段，

3）感知式系統階段，

2、大資料產生的意義?

2.1、大資料的作用已經意義:

3、大資料的處理流程?

3.1、資料的抽取與集成

3.2、資料分析

3.3、資料解釋