大資料概述
- 前言
- 一、大資料的產生
- 二、云計算與大資料的關系
- 三、大資料的4V特征
- 四、大資料的主要應用及行業推動力量
- 五、我國的發展現狀
- 六、大資料的關鍵技術
- 七、大資料的計算架構
前言
在分布式計算中,由于資料量的大小及格式超出了典型資料庫軟體的采集、存盤、管理和分析等能力,因此需要采用新的技術來完成當前資料量的處理及分析,于是大資料(BgDaa)技術就應運而生,
一、大資料的產生
大資料:就是現代化的資料感知、采集、加工處理技術的成熟,和現代網路互聯網物聯網以及網路自媒體相互貫通
例如:
1:手機上的各大軟體每次登錄都要實名獲取或者手機注冊認證、音頻、視頻、圖片、地理位置資訊等、用的軟體都是不同公司開發,開發公司要獲取到你的資訊就是流量
2: 微信登錄,你用的手機型號 、價格、地理位置、用戶出門場景行為、興趣愛好、騰訊大資料實時都可以檢測、生活在互聯網大資料時代,你已經被優化了
人們的使用習慣,人們經常瀏覽網路、網路購物、網路社交等留下的資訊都會被大資料的收集工具所收集,并上傳到資料處理平臺進行資料處理,或許理論上的解釋很難去了解,但是它現在已經和我們的生活緊密聯系在一起,

首先,我們要先了解大資料是什么?
“大資料”是由數量巨大、結構復雜、型別眾多資料構成的資料集合,是基于云計算的資料處理與應用模式,通過資料的整合共享,交叉復用,形成的智力資源,和知識服務的能力,

那么,大資料有來自于哪里呢?
隨著物聯網的發展,人類產生和儲存的資料型別越來越多樣化,包括人與人之間產生的資料如社交網路、即時通訊等資訊,人與機器之間產生的資料如電子商務、網路瀏覽等資訊,以及機器與機器間產生的資料如GPS、監控攝像等,

那么它又影響著我們生活的哪些方面呢?
不論從那些角度,都給我們帶來了新的生活方式,由于大資料的資訊量非常的多,一般的處理工具已經無法滿足如此大量資料的處理,云計算平臺也隨之產生,
云計算平臺是由大量的服務器組成的,收集的復雜資料為被分成小資料分配到服務器上進行處理,云計算平臺的產生也同樣促生了云服務器和云主機的產生,
二、云計算與大資料的關系
大資料的定義
1、大資料的定義
著名的麥肯錫全球研究所給出的定義是:一種規模大到在獲取、存盤、管理、分析方面大大超出了傳統資料庫軟體工具能力范圍的資料集合,具有海量的資料規模、快速的資料流轉、多樣的資料型別和價值密度低四大特征,
研究機構Gartner給出的定義是“大資料”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的資訊資產,
大資料(big data),指無法在一定時間范圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產,
大資料技術的戰略意義不在于掌握龐大的資料資訊,而在于對這些含有意義的資料進行專業化處理,換而言之,如果把大資料比作一種產業,那么這種產業實作盈利的關鍵,在于提高對資料的“加工能力”,通過“加工”實作資料的“增值”,
大資料三大層面來了解
2、三個層面來了解大資料:
其次,想要系統的認知大資料,必須要全面而細致的分解它,著手從三個層面來展開:
(1)第一層面:理論
理論是認知的必經途徑,也是被廣泛認同和傳播的基線,在這里從大資料的特征定義理解行業對大資料的整體描繪和定性;從對大資料價值的探討來深入決議大資料的珍貴所在;洞悉大資料的發展趨勢;從大資料隱私這個特別而重要的視角審視人和資料之間的長久博弈,
(2)第二層面:技術
技術是大資料價值體現的手段和前進的基石,大資料從采集、處理、存盤到形成結果的整個程序,都伴隨著云計算、分布式處理技術、存盤技術和感知技術的發展,(這里我們下文再系統說)
(3)第三層面:實踐
從總統競選到奧斯卡頒獎、從web安全到災難預測都離不開大資料的參與,大資料在企業商業智能、公共服務和市場營銷三個領域擁有巨大的應用潛力和商機,正如那句俗語所言:“當你手上有一把錘子的時候,看所有的東西都是釘子,”
3、大資料的應用領域
綜合來看,未來幾年大資料在商業智能、政府服務和市場營銷三個領域的應用非常值得看好,大多數大資料案例和預算將發生在這三個領域,
商業智能處理流程
(1)商業智能
商業智能(Business Intelligence,簡稱:BI),又稱商業智慧或商務智能,指用現代資料倉庫技術、線上分析處理技術、資料挖掘和資料展現技術進行資料分析以實作商業價值,
過去幾十年,分析師們都依賴來自Hyperion、Microstrategy和Cognos的BI產品分析海量資料并生成報告,資料倉庫和BI工具能夠很好地回答類似這樣的問題:“某某人本季度的銷售業績是多少?”(基于結構化資料),但如果涉及決策和規劃方面的問題,由于不能快速處理非結構化資料,傳統的BI會非常吃力和昂貴, 大多數傳統BI工具都受到以下兩個方面的局限:
首先,它們都是“預設-抓取”工具,由分析師預先確定收集什么資料用于分析,
其次,它們都專注于報告“已知的未知”(Known unknowns),也就是我們知道問題是什么,然后去找答案,(而大資料會給出一些未知的未知,也就是你沒有想到的一些問題的結果) 傳統BI工具主要用于企業運營,側重于成本控制和計劃執行報告,
而大資料技術最主要的功能/應用是ETL(Extract、Transform、Load),將近80%的Hadoop應用都與ETL有關,例如在匯入Vertica這樣的分析資料庫之前對日志檔案或傳感器資料的處理,
今天計算和存盤硬體變得非常便宜,配合大量的開源大資料工具,人們可以非常“奢侈”地先抓取大量資料再考慮分析命題,可以說,低廉的計算資源正在改變我們使用資料的方式, 此外,處理性能的大幅提高(例如記憶體計算)使得實時互動分析更加容易實作,而“實時”和“預測”將BI帶到了一個新的境界——未知的未知,這也是大資料分析與傳統BI之間最大的區別, 未來幾年,隨著企業間的兼并和新產品的不斷推出,傳統的BI工具將與大資料分析并存,
公共服務關系
(2)公共服務
大資料另外一個重大的應用領域是社會和政府,如今,資料挖掘已經能夠預測疾病暴發、理解交通模型并改善教育,
今天,城市正面臨預算超支、基礎設施難題以及從農村和郊區涌入的大量人口,這些都是非常緊迫的問題,而城市,也正是大資料計劃的絕佳實驗室,以紐約這樣的大都市為例,政府公共資料公開化、以及市民生活的高度數字化(購物、交通、醫療等)等都是大資料分析的理想物件,
客觀的市政資料,是消除爭端,維系社會穩定的最佳紐帶,當然,前提是讓公民能夠訪問這些資料同時,保護好公民的隱私性和資料的安全性,蘋果的Siri和谷歌的Google Now都具備成為個人化助理的潛力,當然,我們還需要更多的產品和技術讓資料分析結果更容易被公眾理解和接受(資料可視化),此外,IBM的Watson以及Wolfram Alpha這樣的人工智能技術在實作與用戶的互動上可作參考,
伴隨著各國政務的數字化行程,以及政務資料的透明化,公民將能準確了解政府的運作效率,這是不可逆轉的歷史潮流,同時也是大資料最具潛力的應用領域之一,
市場營銷
(3)市場營銷
大資料的第三大應用領域是市場營銷,具體來說,有利于促進消費者與企業之間的關系,(賣得更多、更快、更有效率) 今天,最大的資料系統是web分析、廣告優化等,今天的數字化營銷與傳統營銷最大的區別就是個性化和精準定位,
如今,企業與客戶之間的接觸點也發生了翻天覆地的變化,從過去的電話和郵件地址,發展到網頁、社交媒體賬戶等等,在這些五花八門的渠道里跟蹤客戶,粉絲和流量變現的年代,每一次閱讀、轉發對企業來說,都是一種推廣行為,間接也可能促成企業產品交易,
云計算
二、云計算
1、云計算的定義
美國國家標準與技術研究院(NIST)定義:云計算是一種按使用量付費的模式,這種模式提供可用的、便捷的、按需的網路訪問, 進入可配置的計算資源共享池(資源包括網路、服務器、存盤、應用軟體、服務),這些資源能夠被快速提供,只需投入很少的管理作業,或與服務供應商進行很少的互動,
云計算(cloudcomputing)是基于互聯網的相關服務的增加、使用和交付模式,通常涉及通過互聯網來提供動態易擴展且經常是虛擬化的資源,
云計算特點
2、云計算特點
云計算是通過使計算分布在大量的分布式計算機上,而非本地計算機或遠程服務器中,企業資料中心的運行將與互聯網更相似,這使得企業能夠將資源切換到需要的應用上,根據需求訪問計算機和存盤系統,
好比是從古老的單臺發電機模式轉向了電廠集中供電的模式,它意味著計算能力也可以作為一種商品進行流通,就像煤氣、水電一樣,取用方便,費用低廉,最大的不同在于,它是通過互聯網進行傳輸的,
被普遍接受的云計算特點如下:
(1) 超大規模
“云”具有相當的規模,Google云計算已經擁有100多萬臺服務器, Amazon、IBM、微軟、Yahoo等的“云”均擁有幾十萬臺服務器,企業私有云一般擁有數百上千臺服務器,“云”能賦予用戶前所未有的計算能力,
(2) 虛擬化
云計算支持用戶在任意位置、使用各種終端獲取應用服務,所請求的資源來自“云”,而不是固定的有形的物體,應用在“云”中某處運行,但實際上用戶無需了解、也不用擔心應用運行的具體位置,只需要一臺筆記本或者一個手機,就可以通過網路服務來實作我們需要的一切,甚至包括超級計算這樣的任務,
(3) 高可靠性
“云”使用了資料多副本容錯、計算節點同構可互換等措施來保障服務的高可靠性,使用云計算比使用本地計算機可靠,
(4) 通用性
云計算不針對特定的應用,在“云”的支撐下可以構造出千變萬化的應用,同一個“云”可以同時支撐不同的應用運行,
(5) 高可擴展性
“云”的規模可以動態伸縮,滿足應用和用戶規模增長的需要,
(6) 按需服務
“云”是一個龐大的資源池,你按需購買;云可以像自來水,電,煤氣那樣計費,
(7) 極其廉價
由于“云”的特殊容錯措施可以采用極其廉價的節點來構成云,“云”的自動化集中式管理使大量企業無需負擔日益高昂的資料中心管理成本,“云”的通用性使資源的利用率較之傳統系統大幅提升,因此用戶可以充分享受“云”的低成本優勢,經常只要花費幾百美元、幾天時間就能完成以前需要數萬美元、數月時間才能完成的任務,
云計算可以徹底改變人們未來的生活,但同時也要重視環境問題,這樣才能真正為人類進步做貢獻,而不是簡單的技術提升,
(8) 潛在的危險性
云計算服務除了提供計算服務外,還必然提供了存盤服務,但是云計算服務當前壟斷在私人機構(企業)手中,而他們僅僅能夠提供商業信用,對于政府機構、商業機構(特別像銀行這樣持有敏感資料的商業機構)對于選擇云計算服務應保持足夠的警惕,一旦商業用戶大規模使用私人機構提供的云計算服務,無論其技術優勢有多強,都不可避免地讓這些私人機構以“資料(資訊)”的重要性挾制整個社會,對于資訊社會而言,“資訊”是至關重要的,另一方面,云計算中的資料對于資料所有者以外的其他用戶云計算用戶是保密的,但是對于提供云計算的商業機構而言確實毫無秘密可言,所有這些潛在的危險,是商業機構和政府機構選擇云計算服務、特別是國外機構提供的云計算服務時,不得不考慮的一個重要前提,
大資料VS云計算
三、大資料和云計算的聯系與區別
1、從定義上看
從二者的定義范圍來看,大資料要比云計算更加廣泛,大資料這一概念從2011年誕生以來,中國從積極推動兩化融合到深度融合,再者,各地紛紛建設大資料產業園可以看出,我國極其看重此次大資料發展貧訓,大資料是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的資訊資產,大資料這個強大的資料庫擁有三層架構體系,包括資料存盤、處理與分析,簡而言之,資料需要通過存盤層先存盤下來,之后根據要求建立資料模型體系,進行分析產生相應價值,這其中缺少不了云計算所提供的中間資料處理層強大的并行計算和分布式計算能力,
簡單來說:云計算是硬體資源的虛擬化,而大資料是海量資料的高效處理,雖然從這個解釋來看也不是完全貼切,但是卻可以幫助對這兩個名字不太明白的人很快理解其區別,當然,如果解釋更形象一點的話,云計算相當于我們的計算機和作業系統,將大量的硬體資源虛擬化后在進行分配使用,
可以說,大資料相當于海量資料的“資料庫”,通觀大資料領域的發展我們也可以看出,當前的大資料發展一直在向著近似于傳統資料庫體驗的方向發展,一句話就是,傳統資料庫給大資料的發展提供了足夠大的空間,
大資料的總體架構包括三層:資料存盤,資料處理和資料分析,資料先要通過存盤層存盤下來,然后根據資料需求和目標來建立相應的資料模型和資料分析指標體系對資料進行分析產生價值,而中間的時效性又通過中間資料處理層提供的強大的并行計算和分布式計算能力來完成,三者相互配合,這讓大資料產生最終價值,
2、從技術上看
從技術上看,大資料與云計算的關系就像一枚硬幣的正反面一樣密不可分,
(1)分布式架構
大資料必然無法用單臺的計算機進行處理,必須采用分布式計算架構,分布式架構是分布式計算技術的應用和工具,目前成熟的技術包括J2EE, CORBA和.NET(DCOM),對于分布式計算技術的架構,不能絕對地說哪一個更好,只能說哪一個更合適,針對不同的軟體專案需求,具體分析才是明智的選擇,它的特色在于對海量資料的挖掘,但它必須依托云計算的分布式處理、分布式資料庫、云存盤和虛擬化技術,
云計算在互聯網領域應用系統的構建:客戶群體是不確定的、系統規模不確定、系統投資不固定、業務應用有很清晰的并行分割特征、資料倉庫系統的構建、資料倉庫規模可估算、資料倉庫的系統投資與業務分析的價值和回報相關、商業智能應用屬于整體應用、Saas模式構建資料倉庫系統,
(2)Hadoop-分布式檔案系統
大資料管理,分布式進行檔案系統,如Hadoop、Mapreduce資料分割與訪問執行;
Hadoop實作了一個分布式檔案系統(Hadoop Distributed File System),簡稱HDFS,HDFS有高容錯性的特點,并且設計用來部署在低廉的(low-cost)硬體上;而且它提供高吞吐量(high throughput)來訪問應用程式的資料,適合那些有著超大資料集(large data set)的應用程式,HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streaming access)檔案系統中的資料,
Hadoop的框架最核心的設計就是:HDFS和MapReduce,HDFS為海量的資料提供了存盤,則MapReduce為海量的資料提供了計算,
同時SQL支持,以Hive+HADOOP為代表的SQL界面支持,在大資料技術上用云計算構建下一代資料倉庫成為熱門話題,
3、從系統需求來看
從系統需求來看,大資料的架構對系統提出了新的挑戰:
(1)芯片集成度更高,隨著集成度更高的最大規模集成電路(SLSI)技術的出現,使計算機朝著微型化和巨型化兩個方向發展,要求一個標準機箱限度完成特定任務;
(2)配置更合理、速度更快,存盤、控制器、I/O通道、記憶體、CPU、網路均衡設計,建立資料倉庫,滿足客戶對高密度機架式服務器的需求針對資料倉庫訪問更優設計,比傳統類似平臺高出一個數量級以上;
(3)整體能耗更低,面對同等計算任務,可以提高運算性能,同時占地面積保持不變的情況下,減少能源消耗和空間需求;
(4)系統更加穩定可靠,能夠消除各種單點故障環節,統一部件/器件的品質和標準;
(5)管理維護費用低,資料倉庫可以實作集中管理,這樣維護費用可以控制在一個可控范圍,從而管理維護費用降到最低,
(6)可規劃和預見的系統擴容、升級路線圖,對系統擴容/升級路線可以做出階段性的預測,實時可規劃,從而更好的運營整個系統,
云計算環境作為大資料處理平臺
4、云計算環境作為大資料處理平臺
(1)云計算環境中基本計算單元的分化
企業云計算平臺上雖然有多個并行計算的CPU,但并沒有創造出具有超強資料處理能力的超級CPU,因此云計算平臺需要具有并行運算能力的軟體系統,同時,當所有用戶的資料全部放在云端時,雖然存盤容量可以很方便地擴充,但面對大量用戶同時發起的海量資料處理請求,簡單的資料處理邏輯已經無法滿足需要,所以大資料涵蓋的資料范圍和其所具有的資料運行能力更加優化,
大資料和云計算的未來趨勢
四、大資料和云計算的未來趨勢
整體來看,未來的趨勢是云計算作為計算資源的底層,支撐著上層的大資料處理,而大資料的發展趨勢是,實時互動式的查詢效率和分析能力將越來越明顯,市場也會對大資料和云計算提出更高的技術需求,迫使大資料和云計算實作技術上的改進和創新和應對市場需求,所以未來他們應該始侄訓是相輔相成、不斷發展的狀態,
三、大資料的4V特征
從某種程度上說,大資料是資料分析的前沿技術,簡言之,從各種各樣型別的資料中,快速獲得有價值資訊的能力,就是大資料技術,明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業的潛力,
2001年,高德納分析員道格·萊尼在一份與其2001年的研究相關的演講中指出,資料增長有三個方向的挑戰和機遇:量(Volume),即資料多少;速(Velocity),即資料輸入、輸出的速度;類(Variety),即多樣性,
在萊尼的理論基礎上,IBM提出大資料的4V特征?得到了業界的廣泛認可,第一,數量(Volume),即資料巨大,從TB級別躍升到PB級別;第二,多樣性(Variety),即資料型別繁多,不僅包括傳統的格式化資料,還包括來自互聯網的網路日志、視頻、圖片、地理位置資訊等;第三,速度(Velocity),即處理速度快;第四,真實性(Veracity),即追求高質量的資料,
雖然不同學者、不同研究機構對大資料的定義不盡相同,但都廣泛提及了這4個基本特征,
1、大容量
據馬海祥了解,天文學和基因學是最早產生大資料變革的領域,2000年,斯隆數字巡天專案啟動時,位于新墨西哥州的望遠鏡,在短短幾周內搜集到的資料已經比天文學歷史上總共搜集的資料還要多;在智利的大型視場全景巡天望遠鏡一旦于2016年投入使用,其在5天之內搜集到的資訊量將相當于前者10年的資訊檔案,
2003年,人類第一次破譯人體基因密碼時,用了10年才完成了30億對堿基對的排序;而在10年之后,世界范圍內的基因儀15分鐘就可以完成同樣的作業量,
伴隨著各種隨身設備、物聯網和云計算、云存盤等技術的發展,人和物的所有軌跡都可以被記錄,資料因此被大量生產出來,
移動互聯網的核心網路節點是人,不再是網頁,人人都成為資料制造者,短信、微博、照片、錄像都是其資料產品;資料來自無數自動化傳感器、自動記錄設施、生產監測、環境監測、交通監測、安防監測等;來自自動流程記錄,刷卡機、收款機、電子不停車收費系統,互聯網點擊、電話撥號等設施以及各種辦事流程登記等,
大量自動或人工產生的資料通過互聯網聚集到特定地點,包括電信運營商、互聯網運營商、政府、銀行、商場、企業、交通樞紐等機構,形成了大資料之海,
我們周圍到底有多少資料?資料量的增長速度有多快?許多人試圖測量出一個確切的數字,
2011年,馬丁·希爾伯特和普里西利亞·洛佩茲在《科學》上發表了一篇文章,對1986——2007年人類所創造、存盤和傳播的一切資訊數量進行了追蹤計算,其研究范圍大約涵蓋了60種模擬和數字技術:書籍、圖畫、信件、電子郵件、照片、音樂、視頻(模擬和數字)、電子游戲、電話、汽車導航等,
據他們估算:2007年,人類大約存盤了超過300EB的資料;1986——2007年,全球資料存盤能力每年提高23%,雙向通信能力每年提高28%,通用計算能力每年提高58%;預計到2013年,世界上存盤的資料能達到約1.2ZB,
這樣大的資料量意味著什么?
據估算,如果把這些資料全部記在書中,這些書可以覆寫整個美國52次,如果存盤在只讀光碟上,這些光碟可以堆成5堆,每堆都可以伸到月球,
在公元前3世紀,希臘時代最著名的圖書館亞歷山大圖書館竭力搜集了當時其所能搜集到的書寫作品,可以代表當時世界上其所能搜集到的知識量,但當數字資料洪流席卷世界之后,每個人都可以獲得大量資料資訊,相當于當時亞歷山大圖書館存盤的資料總量的320倍之多,
2、多樣性
隨著傳感器、智能設備以及社交協作技術的飛速發展,組織中的資料也變得更加復雜,因為它不僅包含傳統的關系型資料,還包含來自網頁、互聯網日志檔案(包括點擊流資料)、搜索索引、社交媒體論壇、電子郵件、檔案、主動和被動系統的傳感器資料等原始、半結構化和非結構化資料,
在大資料時代,資料格式變得越來越多樣,涵蓋了文本、音頻、圖片、視頻、模擬信號等不同的型別;資料來源也越來越多樣,不僅產生于組織內部運作的各個環節,也來自于組織外部,
例如,在交通領域,北京市交通智能化分析平臺資料來自路網攝像頭/傳感器、公交、軌道交通、出租車以及省際客運、旅游、化危運輸、停車、租車等運輸行業,還有問卷調查和地理資訊系統資料,4萬輛浮動車每天產生2000萬條記錄,交通卡刷卡記錄每天1900萬條,手機定位資料每天1800萬條,出租車運營資料每天100萬條,電子停車收費系統資料每天50萬條,定期調查覆寫8萬戶家庭等等,這些資料在體量和速度上都達到了大資料的規模,
發掘這些形態各異、快慢不一的資料流之間的相關性,是大資料做前人之未做、能前人所不能的機會,
大資料不僅是處理巨量資料的利器,更為處理不同來源、不同格式的多元化資料提供了可能,
例如,為了使計算機能夠理解人的意圖,人類就必須要將需解決的問題的思路、方法和手段通過計算機能夠理解的形式告訴計算機,使得計算機能夠根據人的指令一步一步作業,完成某種特定的任務,
在以往,人們只能通過編程這種規范化計算機語言發出指令,隨著自然語言處理技術的發展,人們可以用計算機處理自然語言,實作人與計算機之間基于文本和語音的有效通信,為此,還出現了專門提供結構化語言解決方案的組織—語言資料公司,
自然語言無疑是一個新的資料來源,而且也是一種更復雜、更多樣的資料,它包含諸如省略、指代、更正、重復、強調、倒序等大量的語言現象,還包括噪聲、含混不清、口頭語和音變等語音現象,
蘋果公司在iPhone手機上應用的一項語音控制功能Siri就是多樣化資料處理的代表,用戶可以通過語音、文字輸入等方式與Siri對話交流,并呼叫手機自帶的各項應用,讀短信、詢問天氣、設定鬧鐘、安排日程,乃至搜尋餐廳、電影院等生活資訊,收看相關評論,甚至直接訂位、訂票,Siri則會依據用戶默認的家庭地址或是所在位置判斷、過濾搜尋的結果,
為了讓Siri足夠聰明,蘋果公司引入了谷歌、維基百科等外部資料源,在語音識別和語音合成方面,未來版本的Siri或許可以讓我們聽到中國各地的方言,比如四川話、湖南話和河南話,
多樣化的資料來源正是大資料的威力所在,例如交通狀況與其他領域的資料都存在較強的關聯性,據馬海祥博客收集的資料研究發現,可以從供水系統資料中發現早晨洗澡的高峰時段,加上一個偏移量(通常是40-45分鐘)就能估算出交通早高峰時段;同樣可以從電網資料中統計出傍晚辦公樓集中關燈的時間,加上偏移量估算出晚上的堵車時段,
3、快速度
在資料處理速度方面,有一個著名的“1秒定律”,即要在秒級時間范圍內給出分析結果,超出這個時間,資料就失去價值了,
例如,IBM有一則廣告,講的是“1秒,能做什么”?1秒,能檢測出臺灣的鐵道故障并發布預警;也能發現得克薩斯州的電力中斷,避免電網癱瘓;還能幫助一家全球性金融公司鎖定行業欺詐,保障客戶利益,
在商業領域,“快”也早已貫穿企業運營、管理和決策智能化的每一個環節,形形色色描述“快”的新興詞匯出現在商業資料語境里,例如實時、快如閃電、光速、念動的瞬間、價值送達時間,
英特爾中國研究院首席工程師吳甘沙認為,快速度是大資料處理技術和傳統的資料挖掘技術最大的區別,大資料是一種以實時資料處理、實時結果導向為特征的解決方案,它的“快”有兩個層面,
一是資料產生得快,有的資料是爆發式產生,例如,歐洲核子研究中心的大型強子對撞機在作業狀態下每秒產生PB級的資料;有的資料是涓涓細流式產生,但是由于用戶眾多,短時間內產生的資料量依然非常龐大,例如,點擊流、日志、射頻識別資料、GPS(全球定位系統)位置資訊,
二是資料處理得快,正如水處理系統可以從水庫調出水進行處理,也可以處理直接對涌進來的新水流,大資料也有批處理(“靜止資料”轉變為“正使用資料”)和流處理(“動態資料”轉變為“正使用資料”)兩種范式,以實作快速的資料處理,
為什么要“快”?
第一,時間就是金錢,如果說價值是分子,那么時間就是分母,分母越小,單位價值就越大,面臨同樣大的資料“礦山”,“挖礦”效率是競爭優勢,
第二,像其他商品一樣,資料的價值會折舊,等量資料在不同時間點?價值不等,NewSQL(新的可擴展性/高性能資料庫)的先行者VoltDB(記憶體資料庫)發明了一個概念叫作“資料連續統一體”:資料存在于一個連續的時間軸上,每個資料項都有它的年齡,不同年齡的資料有不同的價值取向,新產生的資料更具有個體價值,產生時間較為久遠的資料集合起來更能發揮價值,
第三,資料跟新聞一樣具有時效性,很多傳感器的資料產生幾秒之后就失去意義了,美國國家海洋和大氣管理局的超級計算機能夠在日本地震后9分鐘計算出海嘯的可能性,但9分鐘的延遲對于瞬間被海浪吞噬的生命來說還是太長了,
越來越多的資料挖掘趨于前端化,即提前感知預測并直接提供服務物件所需要的個性化服務,例如,對絕大多數商品來說,找到顧客“觸點”的最佳時機并非在結賬以后,而是在顧客還提著籃子逛街時,
電子商務網站從點擊流、瀏覽歷史和行為(如放入購物車)中實時發現顧客的即時購買意圖和興趣,并據此推送商品,這就是“快”的價值,
4、真實性
在以上3項特征的基礎上,我歸納總結了大資料的第四個特征——真實性,
資料的重要性就在于對決策的支持,資料的規模并不能決定其能否為決策提供幫助,資料的真實性和質量才是獲得真知和思路最重要的因素,是制定成功決策最堅實的基礎,
追求高資料質量是一項重要的大資料要求和挑戰,即使最優秀的資料清理方法也無法消除某些資料固有的不可預測性,例如,人的感情和誠實性、天氣形勢、經濟因素以及未來,
在處理這些型別的資料時,資料清理無法修正這種不確定性,然而,盡管存在不確定性,資料仍然包含寶貴的資訊,我們必須承認、接受大資料的不確定性,并確定如何充分利用這一點,例如,采取資料融合,即通過結合多個可靠性較低的來源創建更準確、更有用的資料點,或者通過魯棒優化技術和模糊邏輯方法等先進的數學方法,
業界還有人把大資料的基本特征從4V擴展到了11V,包括價值密度低(Value)、可視化(Visualization)、有效性(Validity)等,例如,價值密度低是指隨著物聯網的廣泛應用,資訊感知無處不在,資訊海量,但在連續不間斷的視頻監控程序中,可能有用的資料僅一兩秒,如何通過強大的機器演算法更迅速地完成資料的價值“提純”,是大資料時代亟待解決的難題,
國際資料公司報告里有一句話,概括出了大資料基本特征之間的關系:大資料技術通過使用高速的采集、發現或分析,從超大容量的多樣資料中經濟地提取價值,
除了上述主流的定義,還有人使用3S或者3I描述大資料的特征,
3S指的是:大小(Size)、速度(Speed)和結構(Structure),
3I指的是:
(1)、定義不明確的(Ill-de.ned):多個主流的大資料定義都強調了資料規模需要超過傳統方法處理資料的規模,而隨著技術的進步,資料分析的效率不斷提高,符合大資料定義的資料規模也會相應不斷變大,因而并沒有一個明確的標準,
(2)、令人生畏的(Intimidating):從管理大資料到使用正確的工具獲取它的價值,利用大資料的程序中充滿了各種挑戰,
(3)、即時的(Immediate):資料的價值會隨著時間快速衰減,因此為了保證大資料的可控性,需要縮短資料搜集到獲得資料洞察之間的時間,使得大資料成為真正的即時大資料,這意味著能盡快地分析資料對獲得競爭優勢至關重要,http://cda.pinggu.org/view/19810.html
大資料就是互聯網發展到現今階段的一種表象或特征而已,沒有必要神話它或對它保持敬畏之心,在以云計算為代表的技術創新大幕的襯托下,這些原本很難收集和使用的資料開始容易被利用起來了,通過各行各業的不斷創新,大資料會逐步為人類創造更多的價值,
四、大資料的主要應用及行業推動力量
全球范圍內,研究發展大資料技術、運用大資料推動經濟發展、完善社會治理、提升政府服務和監管能力正成為趨勢,下面將從應用、治理和技術三個方面對當前大資料的現狀與趨勢進行梳理,
一是已有眾多成功的大資料應用,但就其效果和深度而言,當前大資料應用尚處于初級階段,根據大資料分析預測未來、指導實踐的深層次應用將成為發展重點,
按照資料開發應用深入程度的不同,可將眾多的大資料應用分為三個層次,第一層,描述性分析應用,是指從大資料中總結、抽取相關的資訊和知識,幫助人們分析發生了什么,并呈現事物的發展歷程,如美國的DOMO公司從其企業客戶的各個資訊系統中抽取、整合資料,再以統計圖表等可視化形式,將資料蘊含的資訊推送給不同崗位的業務人員和管理者,幫助其更好地了解企業現狀,進而做出判斷和決策,第二層,預測性分析應用,是指從大資料中分析事物之間的關聯關系、發展模式等,并據此對事物發展的趨勢進行預測,如微軟公司紐約研究院研究員David?Rothschild通過收集和分析賭博市場、好萊塢證券交易所、社交媒體用戶發布的帖子等大量公開資料,建立預測模型,對多屆奧斯卡獎項的歸屬進行預測,2014和2015年,均準確預測了奧斯卡共24個獎項中的21個,準確率達87.5%,第三層,指導性分析應用,是指在前兩個層次的基礎上,分析不同決策將導致的后果,并對決策進行指導和優化,如無人駕駛汽車分析高精度地圖資料和海量的激光雷達、攝像頭等傳感器的實時感知資料,對車輛不同駕駛行為的后果進行預判,并據此指導車輛的自動駕駛,
當前,在大資料應用的實踐中,描述性、預測性分析應用多,決策指導性等更深層次分析應用偏少,一般而言,人們做出決策的流程通常包括:認知現狀、預測未來和選擇策略這三個基本步驟,這些步驟也對應了上述大資料分析應用的三個不同型別,不同型別的應用意味著人類和計算機在決策流程中不同的分工和協作,例如:第一層次的描述性分析中,計算機僅負責將與現狀相關的資訊和知識展現給人類專家,而對未來態勢的判斷及對最優策略的選擇仍然由人類專家完成,應用層次越深,計算機承擔的任務越多、越復雜,效率提升也越大,價值也越大,然而,隨著研究應用的不斷深入,人們逐漸意識到前期在大資料分析應用中大放異彩的深度神經網路尚存在基礎理論不完善、模型不具可解釋性、魯棒性較差等問題,因此,雖然應用層次最深的決策指導性應用,當前已在人機博弈等非關鍵性領域取得較好應用效果,但是,在自動駕駛、政府決策、軍事指揮、醫療健康等應用價值更高,且與人類生命、財產、發展和安全緊密關聯的領域,要真正獲得有效應用,仍面臨一系列待解決的重大基礎理論和核心技術挑戰,在此之前,人們還不敢、也不能放手將更多的任務交由計算機大資料分析系統來完成,這也意味著,雖然已有很多成功的大資料應用案例,但還遠未達到我們的預期,大資料應用仍處于初級階段,未來,隨著應用領域的拓展、技術的提升、資料共享開放機制的完善,以及產業生態的成熟,具有更大潛在價值的預測性和指導性應用將是發展的重點,
二是大資料治理體系遠未形成,特別是隱私保護、資料安全與資料共享利用效率之間尚存在明顯矛盾,成為制約大資料發展的重要短板,各界已經意識到構建大資料治理體系的重要意義,相關的研究與實踐將持續加強,
隨著大資料作為戰略資源的地位日益凸顯,人們越來越強烈地意識到制約大資料發展最大的短板之一就是:資料治理體系遠未形成,如資料資產地位的確立尚未達成共識,資料的確權、流通和管控面臨多重挑戰;資料壁壘廣泛存在,阻礙了資料的共享和開放;法律法規發展滯后,導致大資料應用存在安全與隱私風險;等等,如此種種因素,制約了資料資源中所蘊含價值的挖掘與轉化,
其中,隱私、安全與共享利用之間的矛盾問題尤為凸顯,一方面,資料共享開放的需求十分迫切,近年來人工智能應用取得的重要進展,主要源于對海量、高質量資料資源的分析和挖掘,而對于單一組織機構而言,往往靠自身的積累難以聚集足夠的高質量資料,另外,大資料應用的威力,在很多情況下源于對多源資料的綜合融合和深度分析,從而獲得從不同角度觀察、認知事物的全方位視圖,而單個系統、組織的資料往往僅包含事物某個片面、區域的資訊,因此,只有通過共享開放和資料跨域流通才能建立資訊完整的資料集,
然而,另一方面,資料的無序流通與共享,又可能導致隱私保護和資料安全方面的重大風險,必須對其加以規范和限制,例如,鑒于互聯網公司頻發的、由于對個人資料的不正當使用而導致的隱私安全問題,歐盟制定了“史上最嚴格的”資料安全管理法規《通用資料保護條例》(General?Data?Protection?Regulation,GDPR),并于2018年5月25日正式生效,《條例》生效后,Facebook和谷歌等互聯網企業即被指控強迫用戶同意共享個人資料而面臨巨額罰款,并被推上輿論的風口浪尖,2020年1月1日,被稱為美國“最嚴厲、最全面的個人隱私保護法案”——《加利福利亞消費者隱私法案》(CCPA)將正式生效,CCPA規定了新的消費者權利,旨在加強消費者隱私權和資料安全保護,涉及企業收集的個人資訊的訪問、洗掉和共享,企業負有保護個人資訊的責任,消費者控制并擁有其個人資訊,這是美國目前最具典型意義的州隱私立法,提高了美國保護隱私的標準,在這種情況下,過去利用互聯網平臺中心化搜集用戶資料,實作平臺化的精準營銷的這一典型互聯網商業模式將面臨重大挑戰,
我國在個人資訊保護方面也開展了較長時間的作業,針對互聯網環境下的個人資訊保護,制定了《全國人民代表大會常務委員會關于加強網路資訊保護的決定》《電信和互聯網用戶個人資訊保護規定》《全國人民代表大會常務委員會關于維護互聯網安全的決定》和《消費者權益保護法》等相關法律檔案,特別是2016年11月7日,全國人大常委會通過的《中華人民共和國網路安全法》中明確了對個人資訊收集、使用及保護的要求,并規定了個人對其個人資訊進行更正或洗掉的權利,2019年,中央網信辦發布了《資料安全管理辦法(征求意見稿)》,向社會公開征求意見,明確了個人資訊和重要資料的收集、處理、使用和安全監督管理的相關標準和規范,相信這些法律法規將在促進資料的合規使用、保障個人隱私和資料安全等方面發揮不可或缺的重要作用,然而,從體系化、確保一致性、避免碎片化考慮,制訂專門的資料安全法、個人資訊保護法是必要的,
另一方面,我們也應看到,這些法律法規也將在客觀上不可避免地增加資料流通的成本、降低資料綜合利用的效率,如何兼顧發展和安全,平衡效率和風險,在保障安全的前提下,不因噎廢食,不對大資料價值的挖掘利用造成過分的負面影響,是當前全世界在資料治理中面臨的共同課題,
近年來,圍繞大資料治理這一主題及其相關問題,國際上已有不少成功的實踐和研究探索作業,諸如在國家層面推出的促進資料共享開放、保障資料安全和保護公民隱私的相關政策和法規,針對企業機構的資料管理能力評估和改善,面向資料質量保證的方法與技術,促進資料互操作的技術規范和標準等,然而,考察當前的研究和實踐,仍存在三個方面的主要問題,
一是大資料治理概念的使用相對“狹義”,研究和實踐大都以企業組織為物件,僅從個體組織的角度考慮大資料治理的相關問題,這與大資料跨界流動的迫切需求存在矛盾,限制了大資料價值的發揮,二是現有研究實踐對大資料治理內涵的理解尚未形成共識,不同研究者從流程設計、資訊治理和資料管理應用等不同視角,給出了大資料治理的不同定義,共識的形成尚有待時日!三是大資料治理相關的研究實踐多條線索并行,關聯性、完整性和一致性不足,諸如,國家層面的政策法規和法律制定等較少被納入大資料治理的視角;資料作為一種資產的地位仍未通過法律法規予以確立,難以進行有效的管理和應用;大資料管理已有不少可用技術與產品,但還缺乏完善的多層級管理體制和高效管理機制;如何有機結合技術與標準,建立良好的大資料共享與開放環境仍需要進一步探索,缺少系統化設計,僅僅在已有的相關體系上進行擴展和延伸,可能會導致資料治理的“碎片化”和一致性缺失等等,
當前,各界已經普遍認識到了大資料治理的重要意義,大資料治理體系建設已經成為大資料發展重點,但仍處在發展的雛形階段,推進大資料治理體系建設將是未來較長一段時間內需要持續努力的方向,
三是資料規模高速增長,現有技術體系難以滿足大資料應用的需求,大資料理論與技術遠未成熟,未來資訊技術體系將需要顛覆式創新和變革,
近年來,資料規模呈幾何級數高速成長,據國際資訊技術咨詢企業國際資料公司(IDC)的報告,2020年全球資料存盤量將達到44ZB(1021),到2030年將達到2500ZB,當前,需要處理的資料量已經大大超過處理能力的上限,從而導致大量資料因無法或來不及處理,而處于未被利用、價值不明的狀態,這些資料被稱為“暗資料”,據國際商業機器公司(IBM)的研究報告估計,大多數企業僅對其所有資料的1%進行了分析應用,
近年來,大資料獲取、存盤、管理、處理、分析等相關的技術已有顯著進展,但是大資料技術體系尚不完善,大資料基礎理論的研究仍處于萌芽期,首先,大資料定義雖已達成初步共識,但許多本質問題仍存在爭議,例如:資料驅動與規則驅動的對立統一、“關聯”與“因果”的辯證關系、“全資料”的時空相對性、分析模型的可解釋性與魯棒性等;其次,針對特定資料集和特定問題域已有不少專用解決方案,是否有可能形成“通用”或“領域通用”的統一技術體系,仍有待未來的技術發展給出答案;其三,應用超前于理論和技術發展,資料分析的結論往往缺乏堅實的理論基礎,對這些結論的使用仍需保持謹慎態度,
推演資訊技術的未來發展趨勢,較長時期內仍將保持漸進式發展態勢,隨技術發展帶來的資料處理能力的提升將遠遠落后于按指數增長模式快速遞增的資料體量,資料處理能力與資料資源規模之間的“剪刀差”將隨時間持續擴大,大資料現象將長期存在,在此背景下,大資料現象倒逼技術變革,將使得資訊技術體系進行一次重構,這也帶來了顛覆式發展的機遇,例如,計算機體系結構以資料為中心的宏觀走向和存算一體的微觀走向,軟體定義方法論的廣泛采用,云邊端融合的新型計算模式等;網路通信向寬帶、移動、泛在發展,海量資料的快速傳輸和匯聚帶來的網路的Pb/s級帶寬需求,千億級設備聯網帶來的Gb/s級高密度泛在移動接入需求;大資料的時空復雜度亟需在表示、組織、處理和分析等方面的基礎性原理性突破,高性能、高時效、高吞吐等極端化需求呼喚基礎器件的創新和變革;軟硬體開源開放趨勢導致產業發展生態的重構;
大資料是資訊技術發展的必然產物,更是資訊化行程的新階段,其發展推動了數字經濟的形成與繁榮,資訊化已經歷了兩次高速發展的浪潮,始于上世紀80年代,隨個人計算機大規模普及應用所帶來的以單機應用為主要特征的數字化(資訊化1.0),及始于上世紀90年代中期,隨互聯網大規模商用行程所推動的以聯網應用為主要特征的網路化(資訊化2.0),當前,我們正在進入以資料的深度挖掘和融合應用為主要特征的智能化階段(資訊化3.0),在“人機物”三元融合的大背景下,以“萬物均需互聯、一切皆可編程”為目標,數字化、網路化和智能化呈融合發展新態勢,
在資訊化發展歷程中,數字化、網路化和智能化是三條并行不悖的主線,數字化奠定基礎,實作資料資源的獲取和積累;網路化構建平臺,促進資料資源的流通和匯聚;智能化展現能力,通過多源資料的融合分析呈現資訊應用的類人智能,幫助人類更好地認知復雜事物和解決問題,
資訊化新階段開啟的另一個重要表征是資訊技術開始從助力經濟發展的輔助工具向引領經濟發展的核心引擎轉變,進而催生一種新的經濟范式—“數字經濟”,數字經濟是指以數字化知識和資訊為關鍵生產要素、以現代資訊網路為重要載體、以資訊通信技術的有效使用為效率提升和經濟結構優化的重要推動力的一系列經濟活動,是以新一代資訊技術和產業為依托,繼農業經濟、工業經濟之后的新經濟形態,從構成上看,農業經濟屬單層結構,以農業為主,配合以其他行業,以人力、畜力和自然力為動力,使用手工工具,以家庭為單位自給自足,社會分工不明顯,行業間相對獨立;工業經濟是兩層結構,即提供能源動力和行業制造設備的裝備制造產業,以及工業化后的各行各業,并形成分工合作的工業體系,數字經濟則可分為三個層次:提供核心動能的資訊技術及其裝備產業、深度資訊化的各行各業以及跨行業資料融合應用的資料增值產業,當前,數字經濟正處于成型展開期,將進入資訊技術引領經濟發展的爆發期、黃金期!
從另一個視角來看,如果說過去20多年,互聯網高速發展引發了一場社會經濟的“革命”,深刻地改變了人類社會,現在可以看到,互聯網革命的上半場已經結束,上半場的主要特征是“2C”(面向最終用戶),主戰場是面向個人提供社交、購物、教育、娛樂等服務,可稱為“消費互聯網”,而互聯網革命的下半場正在開啟,其主要特征將是“2B”(面向組織機構),重點在于促進供給側的深刻變革,互聯網應用將面向各行業,特別是制造業,以優化資源配置、提質增效為目標,構建以工業物聯為基礎和工業大資料為要素的工業互聯網,作為互聯網發展的新領域,工業互聯網是新一代資訊技術與生產技術深度融合的產物,它通過人、機、物的深度互聯,全要素、全產業鏈、全價值鏈的全面鏈接,推動形成新的工業生產制造和服務體系,當前,新一輪工業革命正在拉開帷幕,在全球范圍內不斷顛覆傳統制造模式、生產組織方式和產業形態,而我國正處于由數量和規模擴張向質量和效益提升轉變的關鍵期,需要抓住歷史機遇期,促進新舊動能轉換,形成競爭新優勢,我國是制造大國和互聯網大國,推動工業互聯網創新發展具備豐富的應用場景、廣闊的市場空間和巨大的推進動力,
數字經濟未來發展呈現如下趨勢:一是以互聯網為核心的新一代資訊技術正逐步演化為人類社會經濟活動的基礎設施,并將對原有的物理基礎設施完成深度資訊化改造和軟體定義,在其支撐下,人類極大地突破了溝通和協作的時空約束,推動平臺經濟、共享經濟等新經濟模式快速發展,以平臺經濟中的零售平臺為例,百貨大樓在前互聯網時代對促進零售業發展起到了重要作用,而從上世紀九十年代中后期開始,伴隨互聯網的普及,電子商務平臺逐漸興起,與要求供需方必須在同一時空達成交易的百貨大樓不同,電子商務平臺依托互聯網,將遍布全球各個角落的消費者、供貨方連接在一起,并聚合物流、支付、信用管理等配套服務,突破了時空約束,大幅減少了中間環節,降低了交易成本,提高了交易效率,按阿里研究院的報告,過去十年間,中國電子商務規模增長了10倍,并呈加速發展趨勢,二是各行業工業互聯網的構建將促進各種業態圍繞資訊化主線深度協作、融合,在完成自身提升變革的同時,不斷催生新的業態,并使一些傳統業態走向消亡,如隨著無人駕駛汽車技術的成熟和應用,傳統出租車業態將可能面臨消亡,其他很多重復性的、對創新創意要求不高的傳統行業也將退出歷史舞臺,2017年10月,《紐約客》雜志報道了劍橋大學兩名研究者對未來365種職業被資訊技術淘汰的可能性分析,其中電話推銷員、打字員、會計等職業高居榜首,三是在資訊化理念和政務大資料的支撐下,政府的綜合管理服務能力和政務服務的便捷性持續提升,公眾積極參與社會治理,形成共策共商共治的良好生態,四是資訊技術體系將完成蛻變升華式的重構,釋放出遠超當前的技術能力,從而使蘊含在大資料中的巨大價值得以充分釋放,帶來數字經濟的爆發式增長,
五、我國的發展現狀
黨的十八屆五中全會將大資料上升為國家戰略,回顧過去幾年的發展,我國大資料發展可總結為:“進步長足,基礎漸厚;喧囂已逝,理性回歸;成果豐碩,短板仍在;勢頭強勁,前景光明”,
作為人口大國和制造大國,我國資料產生能力巨大,大資料資源極為豐富,隨著數字中國建設的推進,各行業的資料資源采集、應用能力不斷提升,將會導致更快更多的資料積累,預計到2020年,我國資料總量有望達到8000EB(1018),占全球資料總量的21%,將成為名列前茅的資料資源大國和全球資料中心,
我國互聯網大資料領域發展態勢良好,市場化程度較高,一些互聯網公司建成了具有國際領先水平的大資料存盤與處理平臺,并在移動支付、網路征信、電子商務等應用領域取得國際先進甚至領先的重要進展,然而,大資料與物體經濟融合還遠不夠,行業大資料應用的廣度和深度明顯不足,生態系統亟待形成和發展,
隨著政務資訊化的不斷發展,各級政府積累了大量與公眾生產生活息息相關的資訊系統和資料,并成為最具價值資料的保有者,如何盤活這些資料,更好地支撐政府決策和便民服務,進而引領促進大資料事業發展,是事關全域的關鍵,2015年9月,國務院發布《促進大資料發展行動綱要》,其中重要任務之一就是“加快政府資料開放共享,推動資源整合,提升治理能力”,并明確了時間節點,2017年跨部門資料資源共享共用格局基本形成;2018年建成政府主導的資料共享開放平臺,打通政府部門、企事業單位間的資料壁壘,并在部分領域開展應用試點;2020年實作政府資料集的普遍開放,隨后,國務院和國務院辦公廳又陸續印發了系列檔案,推進政務資訊資源共享管理、政務資訊系統整合共享、互聯網+政務服務試點、政務服務一網一門一次改革等,推進跨層級、跨地域、跨系統、跨部門、跨業務的政務資訊系統整合、互聯、協同和資料共享,用政務大資料支撐“放管服”改革落地,建設數字政府和智慧政府,目前,我國政務領域的資料開放共享已取得了重要進展和明顯效果,例如:浙江省推出的“最多跑一次”改革,是推進供給側結構性改革、落實“放管服”改革、優化營商環境的重要舉措,以衢州市不動產交易為例,通過設立綜合視窗再造業務流程,群眾由原來跑國土、住建、稅務3個視窗8次提交3套材料,變為只跑綜合視窗1個視窗1次提交1套材料,效率大幅提高,據有關統計,截至2019年上半年,我國已有82個省級、副省級和地級政府上線了資料開放平臺,涉及41.93%的省級行政區、66.67%的副省級城市和18.55%的地級城市,
我國已經具備加快技術創新的良好基礎,在科研投入方面,前期通過國家科技計劃在大規模集群計算、服務器、處理器芯片、基礎軟體等方面系統性部署了研發任務,成績斐然,“十三五”期間在國家重點研發計劃中實施了“云計算和大資料”重點專項,當前科技創新2030大資料重大專案正在緊鑼密鼓地籌劃、部署中,我國在大資料記憶體計算、協處理芯片、分析方法等方面突破了一些關鍵技術,特別是打破“資訊孤島”的資料互操作技術和互聯網大資料應用技術已處于國際領先水平;在大資料存盤、處理方面,研發了一些重要產品,有效地支撐了大資料應用;國內互聯網公司推出的大資料平臺和服務,處理能力躋身世界前列,
國家大資料戰略實施以來,地方政府紛紛回應聯動、積極謀劃布局,國家發改委組織建設11個國家大資料工程實驗室,為大資料領域相關技術創新提供支撐和服務,發改委、工信部、中央網信辦聯合批復貴州、上海、京津冀、珠三角等8個綜合試驗區,正在加快建設,各地方政府紛紛出臺促進大資料發展的指導政策、發展方案、專項政策和規章制度等,使大資料發展呈蓬勃之勢,
然而,我們也必須清醒地認識到我國在大資料方面仍存在一系列亟待補上的短板,
一是大資料治理體系尚待構建,首先,法律法規滯后,目前,我國尚無真正意義上的資料管理法規,只在少數相關法律條文中有涉及到資料管理、資料安全等規范的內容,難以滿足快速增長的資料管理需求,其次,共享開放程度低,推動資料資源共享開放,將有利于打通不同部門和系統的壁壘,促進資料流轉,形成覆寫全面的大資料資源,為大資料分析應用奠定基礎,我國政府機構和公共部門已經掌握巨大的資料資源,但存在“不愿”、“不敢”和“不會”共享開放的問題,例如:在“最多跑一次”改革中,由于技術人員缺乏,政務業務流程優化不足,涉及部門多、鏈條長,長期以來多頭管理、各自為政等問題,導致很多地區、鄉鎮的綜合性視窗難建立、資料難流動、業務系統難協調,同時,由于辦事流程不規范,網上辦事大廳指南五花八門,以至于同一個縣市辦理同一項事件,需要的材料、需要集成的資料在各鄉鎮的政務審批系統里卻各有不同,造成群眾不能一次性獲得準確的相關資訊而需要“跑多次”,當前,我國的政務資料共享開放行程,相對于《行動綱要》明確的時間節點,已明顯落后,且資料質量堪憂,不少地方的政務資料開放平臺,仍然存在標準不統一、資料不完整、不好用甚至不可用等問題,政務資料共享開放意義重大,仍需要堅持不懈地持續推進,此外,在資料共享與開放的實施程序中,各地還存在片面強調資料物理集中的“一刀切”現象,對已有資訊化建設投資保護不足,造成新的浪費,第三,安全隱患增多,近年來,資料安全和隱私資料泄露事件頻發,凸顯大資料發展面臨的嚴峻挑戰,在大資料環境下,資料在采集、存盤、跨境跨系統流轉、利用、交易和銷毀等環節的全生命周期程序中,所有權與管理權分離,真偽難辨,多系統、多環節的資訊隱性留存,導致數據跨境跨系統流轉追蹤難、控制難,資料確權和可信銷毀也更加困難,
二是核心技術薄弱,基礎理論與核心技術的落后導致我國資訊技術長期存在“空心化”和“低端化”問題,大資料時代需避免此問題在新一輪發展中再次出現,近年來,我國在大資料應用領域取得較大進展,但是基礎理論、核心器件和演算法、軟體等層面,較之美國等技術發達國家仍明顯落后,在大資料管理、處理系統與工具方面,我國主要依賴國外開源社區的開源軟體,然而,由于我國對國際開源社區的影響力較弱,導致對大資料技術生態缺乏自主可控能力,成為制約我國大資料產業發展和國際化運營的重大隱患,
三是融合應用有待深化,我國大資料與物體經濟融合不夠深入,主要問題表現在:基礎設施配置不到位,資料采集難度大;缺乏有效引導與支撐,物體經濟數字化轉型緩慢;缺乏自主可控的資料互聯共享平臺等,當前,工業互聯網成為互聯網發展的新領域,然而仍存在不少問題:政府熱、企業冷,政府時有“專案式”、“運動式”推進,而企業由于沒看到直接、快捷的好處,接受度低;設備設施的數字化率和聯網率偏低;大多數大企業仍然傾向打造難以與外部系統互動資料的封閉系統,而眾多中小企業數字化轉型的動力和能力嚴重不足;國外廠商的設備在我國具有壟斷地位,這些企業紛紛推出相應的工業互聯網平臺,搶占工業領域的大資料基礎服務市場,
六、大資料的關鍵技術
大資料已經逐漸普及,大資料處理關鍵技術一般包括:大資料采集、大資料預處理、大資料存盤及管理、大資料分析及挖掘、大資料展現和應用(大資料檢索、大資料可視化、大資料應用、大資料安全等),
一、資料采集
如何從大資料中采集出有用的資訊已經是大資料發展的關鍵因素之一,因此在大資料時代背景下,如何從大資料中采集出有用的資訊已經是大資料發展的關鍵因素之一,資料采集才是大資料產業的基石,那么什么是大資料采集技術呢?資料采集(DAQ): 又稱資料獲取,是指從傳感器和其它待測設備等模擬和數字被測單元中自動采集資訊的程序,
資料分類新一代資料體系中,將傳統資料體系中沒有考慮過的新資料源進行歸納與分類,可將其分為線上行為資料與內容資料兩大類,
?線上行為資料:頁面資料、互動資料、表單資料、會話資料等,
?內容資料:應用日志、電子檔案、機器資料、語音資料、社交媒體資料等,
?大資料的主要來源(人、環境、物體等,互聯網,物聯網等):
1)商業資料
2)互聯網資料
3)傳感器資料
資料采集與大資料采集區別
傳統資料采集
-
來源單一,資料量相對于大資料較小
-
結構單一
-
關系資料庫和并行資料倉庫
大資料的資料采集
-
來源廣泛,資料量巨大
-
資料型別豐富,包括結構化,半結構化,非結構化
-
分布式資料庫
傳統資料采集的不足
傳統的資料采集來源單一,且存盤、管理和分析資料量也相對較小,大多采用關系型資料庫和并行資料倉庫即可處理,
對依靠并行計算提升資料處理速度方面而言,傳統的并行資料庫技術追求高度一致性和容錯性,根據CAP理論,難以保證其可用性和擴展性
大資料采集新的方法
?系統日志采集方法
很多互聯網企業都有自己的海量資料采集工具,多用于系統日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,這些工具均采用分布式架構,能滿足每秒數百MB的日志資料采集和傳輸需求,
?網路資料采集方法
網路資料采集是指通過網路爬蟲或網站公開API等方式從網站上獲取資料資訊,
該方法可以將非結構化資料從網頁中抽取出來,將其存盤為統一的本地資料檔案,并以結構化的方式存盤,
它支持圖片、音頻、視頻等檔案或附件的采集,附件與正文可以自動關聯,
除了網路中包含的內容之外,對于網路流量的采集可以使用DPI或DFI等帶寬管理技術進行處理,
?其他資料采集方法
對于企業生產經營資料或學科研究資料等保密性要求較高的資料,可以通過與企業或研究機構合作,使用特定系統介面等相關方式采集資料,
二、大資料預處理
高質量的決策必須依賴高質量的資料,而從現實世界中采集到的資料大多是不完整、結構不一致、含噪聲的臟資料,無法直接用于資料分析或挖掘,資料預處理就是對采集到的原始資料進行清洗、填補、平滑、合并、規格化以及檢查一致性等,這個處理程序可以幫助我們將那些雜亂無章的資料轉化為相對單一且便于處理的構型,以達到快速分析處理的目的,
通常資料預處理包含三個部分:資料清理、資料集成、變換以及資料規約,
一)、資料清理
并不是所有的資料都是有價值的,有些資料并不是我們所關心的內容,有些甚至是完全錯誤的干擾項,因此要對資料過濾、去噪,從而提取出有效的資料,
資料清理主要包含遺漏值處理(缺少感興趣的屬性)、噪音資料處理(資料中存在著錯誤、或偏離遺漏資料可用全域常量、屬性均值、可能值填充或者直接忽略該資料等方法處理;
噪音資料可用分箱(對原始資料進行分組,然后對每一組內的資料進行平滑處理)、聚類、計算機人工檢查和回歸等方法去除噪音;對于不一致資料則可進行手動更正,期望值的資料)、不一致資料處理,
二)、資料集成與變換
資料集成是指把多個資料源中的資料整合并存盤到一個一致的資料庫中,這一程序中需要著重解決三個問題:模式匹配、資料冗余、資料值沖突檢測與處理,
由于來自多個資料集合的資料在命名上存在差異,因此等價的物體常具有不同的名稱,如何更好地對來自多個物體的不同資料進行匹配是如何處理好資料集成的首要問題,
資料冗余可能來源于資料屬性命名的不一致,在解決資料冗余的程序中,可以利用皮爾遜積矩Ra,b來衡量數值屬性,絕對值越大表明兩者之間相關性越強,對于離散資料可以利用卡方檢驗來檢測兩個屬性之間的關聯,
資料集成中最后一個重要問題便是資料值沖突問題,主要表現為來源不同的統一物體具有不同的資料值,
為了更好地對資料源中的資料進行挖掘,資料變換是必然結果,其主要程序有平滑、聚集、資料泛化(使用高層的概念來替換低層或原始資料)、規范化(對資料)以及屬性構造等,
三)、資料規約
資料規約主要包括:資料方聚集、維規約、資料壓縮、數值規約和概念分層等,
假若根據業務需求,從資料倉庫中獲取了分析所需要的資料,這個資料集可能非常龐大,而在海量資料上進行資料分析和資料挖掘的成本又極高,使用資料規約技術則可以實作資料集的規約表示,使得資料集變小的同時仍然近于保持原資料的完整性,在規約后的資料集上進行挖掘,依然能夠得到與使用原資料集近乎相同的分析結果,
三、存盤及管理技術
在大資料時代的背景下,海量的資料整理成為了各個企業急需解決的問題,
云計算技術、物聯網等技術快速發展,多樣化已經成為資料資訊的一項顯著特點,為充分發揮資訊應用價值,有效存盤已經成為人們關注的熱點,
為了有效應對現實世界中復雜多樣性的大資料處理需求,需要針對不同的大資料應用特征,從多個角度、多個層次對大資料進行存盤和管理,
一)大資料面臨的存盤管理問題
●存盤規模大
大資料的一個顯著特征就是資料量大,起始計算量單位至少是PB,甚至會采用更大的單位EB或ZB,導致存盤規模相當大,
●種類和來源多樣化,存盤管理復雜
目前,大資料主要來源于搜索引擎服務、電子商務、社交網路、音視頻、在線服務、個人資料業務、地理資訊資料、傳統企業、公共機構等領域,
因此資料呈現方法眾多,可以是結構化、半結構化和非結構化的資料形態,不僅使原有的存盤模式無法滿足資料時代的需求,還導致存盤管理更加復雜,
●對資料服務的種類和水平要求高
大資料的價值密度相對較低,以及資料增長速度快、處理速度快、時效性要求也高,在這種情況下如何結合實際的業務,有效地組織管理、存盤這些資料以能從浩瀚的資料中,挖掘其更深層次的資料價值,需要亟待解決,
大規模的資料資源蘊含著巨大的社會價值,有效管理資料,對國家治理、社會管理、企業決策和個人生活、學習將帶來巨大的作用和影響,因此在大資料時代,必須解決海量資料的高效存盤問題,
二)我國大資料的存盤及處理能力挑戰
當前,我國大資料存盤、分析和處理的能力還很薄弱,與大資料相關的技術和工具的運用也相當不成熟,大部分企業仍處于IT產業鏈的低端,
我國在資料庫、資料倉庫、資料挖掘以及云計算等領域的技術,普遍落后于國外先進水平,
在大資料存盤方面,資料的爆炸式增長,資料來源的極其豐富和資料型別的多種多樣,使資料存盤量更龐大,對資料展現的要求更高,而目前我國傳統的資料庫,還難以存盤如此巨大的資料量,
因此,如何提高我國對大資料資源的存盤和整合能力,實作從大資料中發現、挖掘出有價值的資訊和知識,是當前我國大資料存盤和處理所面臨的挑戰,
三)大資料存盤管理技術
近年來,企業也從大資料中受益,大幅度推動支出和投資,并允許他們與規模更大的企業進行競爭,
所有事實和數字的存盤和管理逐漸變得更加容易,以下是有效存盤和管理大資料的三種方式,
●不斷加密
任何型別的資料對于任何一個企業來說都是至關重要的,而且通常被認為是私有的,并且在他們自己掌控的范圍內是安全的,
然而,黑客攻擊經常被覆寫在業務故障中,最新的網路攻擊活動在新聞報道不斷充斥,因此,許多公司感到很難感到安全,尤其是當一些行業巨頭經常成為攻擊目標時,
隨著企業為保護資產全面開展作業,加密技術成為打擊網路威脅的可行途徑,將所有內容轉換為代碼,使用加密資訊,只有收件人可以解碼,
如果沒有其他的要求,則加密保護資料傳輸,增強在數字傳輸中有效地到達正確人群的機會,
●倉庫存盤
大資料似乎難以管理,就像一個永無休止統計資料的復雜的漩渦,
因此,將資訊精簡到單一的公司位置似乎是明智的,這是一個倉庫,其中所有的資料和服務器都可以被充分地規劃指定,
然而,有些報告指出了反對這種方法的論據,指出即使是最大的存盤中心,大資料的指數增長也不再能維持,
然而,在某些情況下,企業可能會租用一個倉庫來存盤大量資料,在大資料超出的情況下,這是一個臨時的解決方案,而LCP屬性提供了一些很好的機會,
畢竟,企業不會立即被大量的資料所淹沒,因此,為物理機器租用倉庫至少在短期內是可行的,這是一個簡單有效的解決方案,但并不是永久的成本承諾,
●備份服務 - 云端
除了所有技術的發展,大資料增長得更快,以這樣的速度,世界上所有的機器和倉庫都無法完全容納它,
因此,由于云存盤服務推動了數字化轉型,云計算的應用越來越繁榮,資料在一個位置不再受到風險控制,并隨時隨地可以訪問,大型云計算公司(如谷歌云)將會更多地訪問基本統計資訊,
如果出現網路攻擊,云端將以A遷移到B的方式提供獨一無二的服務,
三)結論
目前原有的存盤模式以及跟不上時代的步伐,無法滿足資料時代的需求,導致資訊處理技術無法承載資訊的負荷量,
這就需要對資料的存盤技術和存盤模式進行創新與研究,跟上數字化存盤的技術的發展步伐,給用戶提供一個具有高質量的資料存盤體驗,
根據大資料的特點的每一種技術都各有所長,彼此都有各自的市場空間,在很長的一段時間內,滿足不同應用的差異化需求,
但為了更好的滿足大資料時代的各種非結構化資料的存盤需求,資料管理和存盤技術仍需進一步改進和發展,
可能有些中小企業無法自己快速的獲取自己的所需的資料進行分析,這就需要到了第三方的資料平臺進行大資料分析,
四、大資料分析及挖掘技術
資料挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的資料中提取隱含在其中的、人們事先不知道的、但又是潛在有用的資訊和知識的程序,
一)資料挖掘物件:根據資訊存盤格式,用于挖掘的物件有關系資料庫、面向物件資料庫、資料倉庫、文本資料源、多媒體資料庫、空間資料庫、時態資料庫、異質資料庫以及Internet等,
二)資料挖掘流程
1)定義問題:清晰地定義出業務問題,確定資料挖掘的目的,
2)資料準備:資料準備包括:選擇資料–在大型資料庫和資料倉庫目標中 提取資料挖掘的目標資料集;
3)資料預處理–進行資料再加工,包括檢查資料的完整性及資料的一致性、去噪聲,填補丟失的域,洗掉無效資料等,
4)資料挖掘:根據資料功能的型別和和資料的特點選擇相應的演算法,在凈化和轉換過的資料集上進行資料挖掘,
5)結果分析:對資料挖掘的結果進行解釋和評價,轉換成為能夠最終被用戶理解的知識,
三)資料挖掘分類
直接資料挖掘:目標是利用可用的資料建立一個模型,這個模型對剩余的資料,對一個特定的變數(可以理解成資料庫中表的屬性,即列)進行描述,
間接資料挖掘:目標中沒有選出某一具體的變數,用模型進行描述;而是在所有的變數中建立起某種關系,
四)資料挖掘的方法
1、神經網路方法
神經網路由于本身良好的魯棒性、自組織自適應性、并行處理、分布存盤和高度容錯等特性非常適合解決資料挖掘的問題,因此近年來越來越受到人們的關注,
2、遺傳演算法
遺傳演算法是一種基于生物自然選擇與遺傳機理的隨機搜索演算法,是一種仿生全域優化方法,遺傳演算法具有的隱含并行性、易于和其它模型結合等性質使得它在資料挖掘中被加以應用,
3、決策樹方法
決策樹是一種常用于預測模型的演算法,它通過將大量資料有目的分類,從中找到一些有價值的,潛在的資訊,它的主要優點是描述簡單,分類速度快,特別適合大規模的資料處理,
粗集理論是一種研究不精確、不確定知識的數學工具,粗集方法有幾個優點:不需要給出額外資訊;簡化輸入資訊的表達空間;演算法簡單,易于操作,粗集處理的物件是類似二維關系表的資訊表,
4、覆寫正例排斥反例方法
它是利用覆寫所有正例、排斥所有反例的思想來尋找規則,首先在正例集合中任選一個種子,到反例集合中逐個比較,與欄位取值構成的選擇子相容則舍去,相反則保留,按此思想回圈所有正例種子,將得到正例的規則(選擇子的合取式),
5、統計分析方法
在資料庫欄位項之間存在兩種關系:函式關系和相關關系,對它們的分析可采用統計學方法,即利用統計學原理對資料庫中的資訊進行分析,可進行常用統計、回歸分析、相關分析、差異分析等,
6、模糊集方法
即利用模糊集合理論對實際問題進行模糊評判、模糊決策、模糊模式識別和模糊聚類分析,系統的復雜性越高,模糊性越強,一般模糊集合理論是用隸屬度來刻畫模糊事物的亦此亦彼性的,
大數發掘技術,目前,還需要改進已有資料挖掘和機器學習技術;開發資料網路挖掘、特異群組挖掘、圖挖掘等新型資料挖掘技術;突破基于物件的資料連接、相似性連接等大資料融合技術;突破用戶興趣分析、網路行為分析、情感語意分析等面向領域的大資料挖掘技術,
五)著重突破技術
- 可視化分析
不論是分析專家,還是普通用戶,在分析大資料時,最基本的要求就是對資料進行可視化分析,經過可視化分析后,大資料的特點可以直觀地呈現出來,將單一的表格變為豐富多彩的圖形模式,簡單明了、清晰直觀,更易于讀者接受,
- 資料挖掘演算法
資料挖掘演算法是根據資料創建資料挖掘模型的一組試探法和計算,為了創建該模型,演算法將首先分析用戶提供的資料,針對特定型別的模式和趨勢進行查找,
并使用分析結果定義用于創建挖掘模型的最佳引數,將這些引數應用于整個資料集,以便提取可行模式和詳細統計資訊,
大資料分析的理論核心就是資料挖掘演算法,資料挖掘的演算法多種多樣,不同的演算法基于不同的資料型別和格式會呈現出資料所具備的不同特點,各類統計方法都能深入資料內部,挖掘出資料的價值,
為特定的分析任務選擇最佳演算法極具挑戰性,使用不同的演算法執行同樣的任務,會生成不同的結果,而某些演算法還會對同一個問題生成多種型別的結果,
- 預測性分析
大資料分析最重要的應用領域之一就是預測性分析,預測性分析結合了多種高級分析功能,包括特別統計分析、預測建模、資料挖掘、文本分析、物體分析、優化、實時評分、機器學習等,
從紛繁的資料中挖掘出其特點,可以幫助我們了解目前狀況以及確定下一步的行動方案,從依靠猜測進行決策轉變為依靠預測進行決策,它可幫助分析用戶的結構化和非結構化資料中的趨勢、模式和關系,運用這些指標來洞察預測將來事件,并作出相應的措施,
- 語意引擎
非結構化資料的多元化給資料分析帶來新的挑戰,我們需要一套工具系統地去分析,提煉資料,語意引擎是語意技術最直接的應用,可以將人們從繁瑣的搜索條目中解放出來,讓用戶更快、更準確、更全面地獲得所需資訊,提高用戶的互聯網體驗,
- 資料質量和資料管理
大資料分析離不開資料質量和資料管理,高質量的資料和有效的資料管理無論是在學術研究還是在商業應用領域都極其重要,各個領域都需要保證分析結果的真實性和價值性,
可能有些中小企業無法自己快速的獲取自己的所需的資料進行分析,這就需要到了第三方的資料平臺進行大資料分析,
七、大資料的計算架構
大資料處理技術,隨著大資料時代的發展變化,也在不斷迭代更新,到了近幾年,實時流計算占據主導趨勢,企業級的平臺開發任務當中,實時計算資料架構的地位變得愈加重要,今天的大資料入門分享,我們就主要來聊聊實時計算資料架構的演變歷程,
實時計算資料架構,大致經歷了四個階段:傳統資料基礎架構、微服務架構、大資料資料架構、有狀態流式架構,

1、傳統資料基礎架構
傳統單體資料架構最大的特點便是集中式資料存盤,大多數分為計算層和存盤層,
存盤層,主要是負責存盤企業各種系統產生的資料,如Web業務系統、訂單系統、CRM系統,ERP系統、監控系統,資料比如系統的訂單交易量,網站的活躍用戶數,每個用戶的交易額,所有的操作均需要借助于同一套資料庫實作,
單體架構初期效率很高,但是隨著時間的推移,業務越來越多,上線迭代很快,
但隨著后期業務越來越多,系統逐漸變的臃腫,資料庫變成了唯一準確的資料源,每個應用都需要訪問資料庫來獲取對應的資料,如果資料庫發生改變或者出現問題,整個業務系統都會受到影響,
2、微服務架構
微服務將系統拆分成不同的獨立服務模塊,每個模塊有自己獨立的資料庫,不同的業務之間互相不干擾,微服務架構解決了業務系統拓展性的問題,但是隨之也帶來了新的問題,

業務資料過于分散在不同的系統中,很難將資料集中化管理,
對于企業內部資料倉庫,資料挖掘之類的應用,需要把各個業務系統資料庫資料抽取到資料倉庫之中,在資料倉庫中進行資料的抽取、轉換、加載(ETL),從而構建不同的資料集市應用,提供給業務系統用,
3、資料資料架構
起初,資料是構建在關系型資料庫之上,但隨著企業資料量的暴增,關系型資料庫已經無法支撐起大規模資料集的存盤和分析,于是基于Hadoop構建企業級大資料平臺便成為了共識,
后來,離線的高延遲漸漸的無法滿足企業需求,例如一些時間要求比較高的應用,實時報表統計,需要非常低的延時展示結果,為此業界提出一套lambda架構方案來處理不同型別的資料,
包含了批量計算的Batch Layer和實時計算的Speed Layer,通過在一套平臺中,將批計算和流計算結合在一起,
Lambda架構是構建大資料應用程式的一種很有效的解決方案,但還不是最完美的方案,

4、有狀態流式架構
資料產生的本質,其實是一條條真實存在的事件,而前面講的不同的架構所用到的技術,如Hadoop、Spark,多少都在一定程度上違背了這種本質,需要在一定延時的情況下對業務資料進行處理,于是就有了現如今大熱的Flink框架,流批一體,采取有狀態的流計算,
所謂有狀態的流計算架構,基于實時的流式資料,維護所有計算程序的狀態,所謂狀態就是計算程序中產生的所有中間計算結果,每次計算新的資料進入到流式系統中都是基于中間狀態結果的基礎上進行計算,最終產生正確的統計結果,
這種架構好處是,不需要從原始資料重新從外部存盤中拿出來,從而進行全量計算;另外用戶也無需協調各種批量計算工具,從資料倉庫中獲取統計結果,然后再落地存盤,這些操作全部都可以基于流式操作來完成,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/238516.html
標籤:其他
上一篇:rsync遠程同步
