大資料:是資料科學中的一個分支,至于資料科學,其被認為是數學,計算機知識和某個專業領域知識的交叉學科,計算機知識和數學的交集區域,被稱為機器學習;數學和某專業領域知識的交集,屬于傳統研究范疇,而且大資料領域又可以劃分為幾個主要的方向:
- 資料平臺 (Data Platform): 構建、維護穩定、安全的大資料平臺,按需設計大資料架構,調研大資料產品、方案、實施部署上線,
- 資料采集(Data Collecting): 從網頁/Sensor/RDBMS等渠道獲取資料,為大資料平臺提供資料來源,如:Apache Nutch 是開源的分布式資料采集組件,Python爬蟲框架ScraPy等,
- 資料倉庫(Data Warehouse): 設計數倉層級結構、ETL、進行資料建模,如:Hive就是基于Hadoop的資料倉庫,
- 資料處理(Data Processing): 完成某種特定需求中的處理或者資料清洗,結合在資料倉庫中一起做的,利用工具直接配置處理,寫代碼的部分比較少,是資料分析、資料挖掘等作業的基礎,
- 資料分析 (Data Analysis): 基于統計分析方法開展作業,如:回歸分析,方差分析等,
- 資料挖掘(Data Mining): 概念較為寬泛,設計在大資料平臺上實作演算法:分類,聚類,關聯分析等,
- 機器學習(Machine Learning): 與資料挖掘比較相近,是計算機與統計學交叉的學科,基于業務目標學習一個函式(映射),做分類或者回歸的作業,如:個性化推薦,
- 深度學習(Deep Learning): 機器學習的一個分支,利用神經網路,處理影像、語音、自然語言等分類和識別這些分類,調參是很重要的部分,
- 資料可視化(Data Visualization): 分析、挖掘后得到的資料結果以合適與恰當的方式展示出來,
- 資料應用(Data Application): 廣告精準投放、個性化推薦、用戶畫像等,
現今普光率比較高的分支,資料分析、資料挖掘、機器學習、資料可視化和深度學習,其中深度學習和人工智能的關系非常緊密,被認為是AI發展的基礎,
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/245136.html
標籤:大數據
上一篇:求救
下一篇:標簽管理體系之業務應用
