第1章 緒論
·高級資料分析技術的應用
·商業和工業
·商務智能應用
顧客分析、定向銷售、作業流管理、商店分布、欺詐檢測、自動化購買和銷售
·基于互聯網的服務
過濾垃圾資訊、回答搜索查詢、建議社交圈的更新和聯系
·移動傳感器和移動設備
家庭系統、規劃智能城市
·醫學、科學與工程
·全球氣候系統
·基因組資料
·電子健康記錄資料
·什么是資料挖掘
·定義
大型資料庫中自動地發現有用資訊的程序
·資料庫中的知識發現KDD
資料挖掘是其不可缺少的一部分??
·輸入資料
各種形式存盤
·資料預處理
最耗時最費力
·資料挖掘
·后處理
·資訊
·資料挖掘要解決的問題
·可伸縮
·原因:TB、PB、EB
·方法
核外演算法、抽樣技術、并行和分布式演算法
·高維性
·原因
·屬性多
·時間分量和空間分量
·異構資料和復雜資料
·非傳統型別資料
·資料的所有權與分布
·屬于多個機構
·分布式資料挖掘技術
·非傳統分析
·自動地產生和評估假設
·代表資料的時機性樣本
·資料挖掘的起源
20世紀80年代末?
·涉及領域
·采納
最優化、進化計算、資訊論、信號處理、可視化和資訊檢索。?
·支撐
分布式技術:處理海量資料。
·資料科學和資料驅動發現
·資料科學
是一個研究及應用工具和技術從資料中獲取有用見解的跨學科領域。
·領域
資料挖掘、統計學、人工智能、機器學習、模式識別、資料庫技術、分布式和并行計算
·資料科學的資料驅動方法
從資料中直接發現模式和關系?
·成功例子
神經網路的進步即深度學習
·資料挖掘的任務
分為預測任務和描述任務?
·預測任務
根據其他屬性的值預測特定屬性的值
·描述任務
匯出概述資料中潛在聯系的模式
·4種主要挖掘任務
·預測建模
·定義
目標變數建立模型,并將其作為解釋變數的函式。
·兩類任務
·分類
預測離散的目標變數
·回歸
連續的。
·關聯分析
·定義
發現描述資料中強關聯特征的模式
·表現形式
涵蓋規則或特征子集
·目標
以有效的方式提取最有趣的模式
·應用
找出相關功能基因組、識別用戶一起訪問的web、理解地球氣候系統中不同元素之間的聯系等。
·聚類分析
·定義
發現緊密相關的觀測值群組,使得與屬于不同簇?的觀測值相比,屬于同一簇的觀測值之間盡可能相似
·應用
顧客分組,顯著影響地球氣候的海洋區域及壓縮資料
·例外檢測
·定義
識別特征顯著不同于其他資料的觀測值
·觀測值
例外點、離群點
·應用
欺詐檢測、網路攻擊、疾病的不尋常模式、生態系統擾動
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/28386.html
標籤:其他數據庫
上一篇:編譯pqlibxx.lib出錯
下一篇:小程式后續如何添加云開發
