資料管理技術的發展
第一節 資料庫技術發展概述
- 資料模型是資料庫系統的核心和基礎
- 以資料模型的發展為主線,資料庫技術可以相應地分為三個發展階段:
- 第一代的網狀、層次資料庫系統
- 第二代的關系資料庫系統
- 新一代的資料庫系統
一、第一代資料庫系統
- 層次資料庫系統 層次模型
- 網狀資料庫系統 網狀模型
- 層次模型是網狀模型的特例
第一代資料庫系統有如下兩類代表:
- 1969年IBM公司研制的層次模型資料庫管理系統 IMS,
- DBTG 報告
這兩類資料庫系統具有的共同特點:
- 支持三級模式(外模式、模式、內模式)的體系結構,模式之間具有轉換(或稱為映射)功能,
- 用存取路徑來表示資料之間的聯系,
- 獨立的資料定義語言,
- 導航的資料操縱語言,
二、第二代資料庫系統
支持關系資料模式的關系資料庫系統是第二代資料庫系統,
20世紀70年代是關系資料庫理論研究和原型開發的時代,
經過大量高層次的研究和開發取得了以下主要成果:
- 奠定了關系模型的理論基礎,給出了人們一致接受的關系模型的規范說明,
- 研究了關系資料語言,有關系代數、關系演算、SQL語言及QBE等,
- 研制了大量的 RDBMS的原型,攻克了系統實作中查詢優化、并發控制、故障恢復等一系列關鍵技術,
關系資料庫是以關系模型為基礎的,而關系模型是由資料結構、關系操作和資料完整性三部分組成,
第二代關系資料庫系統具有模型簡單清晰、理論基礎好、資料獨立性強、資料庫語言非程序化和標準化等特點,
三、新一代資料庫系統
從20世紀80年代開始,資料庫界廣泛開展了面向物件資料庫系統(OODBS)的研究,
從面向物件(OO)模型、面向物件資料庫管理系統(OODBMS)實作技術、OODBMS產品研發和應用等各個層面進行了大量的創新作業,
由于面向物件資料模型中許多功能難以實作,面向物件資料庫系統過于復雜不易使用,盡管開發出許多面向物件資料庫產品,但是成熟度低,最終沒有被市場普遍接受,
1990 年高級 DBMS 功能委員會發表了 《第三代資料庫系統宣言》的文章,提出了第三代資料庫系統應具有的三個基本特征,《宣言》中稱為三潭訓本原則,
這三個基本特征如下:
- 第三代資料庫系統應支持資料管理、物件管理和知識管理,
- 第三代資料庫系統應該是以支持面向物件資料模型為主要特征的資料庫系統
- 只支持面向物件模型的系統不能稱為第三代資料庫系統
- 第三代資料庫系統還應具備其他特征
- 第三代資料庫系統必須保持或繼承第二代資料庫系統的技術
- 第三代資料庫系統必須對其他系統開發
既然對于第三代資料庫系統并沒有形成一致的認識,因而通常把第二代以后的資料庫系統稱為新一代資料庫系統,
資料庫與其他計算機技術相結合,是資料庫技術發展的一個顯著特征,
資料倉庫、工程資料庫、統計資料庫、空間資料庫、科學資料庫等多種資料庫
第二節 資料倉庫與資料挖掘
一、從資料庫到資料倉庫
計算機系統中存在著兩類不同的資料處理作業:
- 操作型處理,也稱為聯機事物處理(Online Transaction Processing,OLTP)
- 分析型處理,也稱為聯機分析處理(Online Analytical Processing,OLAP)
20世紀80年代資料倉庫(Data Warehouse,DW)技術應運而生,
傳統的資料庫技術為操作型處理服務
資料倉庫為分析型處理服務
資料倉庫是面向主題的、集成的、穩定的、隨時間變化的資料集合,用以支持管理決策的程序,
資料倉庫用于支持決策,面向分析型資料處理,不同于提供業務效率的操作型資料庫,
資料倉庫對分布在組織或企業中的多個異構資料源集成,按照決策主題選擇資料并以新的資料模型存盤,
存盤在資料倉庫中的資料一般不能修改,
-
資料倉庫主要有以下特征:
- 面向主題
- 集成性
- 資料的非易失性
- 資料經加工和集成進入資料倉庫后是極少更新的,通常只需要定期加載和更新,
- 資料的時變性
-
粒度是指資料倉庫的資料單位中保存資料的細化或綜合程度的級別,細化程度越高,粒度級就越小,相反地,細化程度越低,粒度級就越大,
- 在資料倉庫中的資料量大小與查詢的詳細程度之間要做出權衡,
-
分割是將資料分散到各自的物理單元中,以便能分別處理,以提高資料處理的效率,
- 資料分割后的單元稱為切片
-
維是人們觀察資料的特定角度,是考慮問題時的一類屬性,
- 維可以有細節程度的不同描述方面(維的層次)
資料集市(Data Mart)的基本思想是自下而上的資料倉庫的開發方法,
- 資料集市
- 獨立的資料集市(Independent Data Mart)
- 從屬的資料集市(Dependent Data Mart)
- 兩種集市的混合
二、資料挖掘技術
資料挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用資料中發現并提取隱藏在其中的、人們事先不知道的、但又是潛在有用的資訊和知識的一種技術,
它又被稱為資料庫中的知識發現(Knowledge Discovery in Database,KDD),其與資料庫、數理統計、機器學習、模式識別、模糊數學等諸多技術相關,
資料處理不是資料挖掘,
- 資料挖掘具備下列幾種功能:
- 概念描述
- 關聯分析
- 關聯
- 簡單關聯
- 時序關聯
- 因果關聯
- 目的是找出資料庫中隱藏的關聯網,
- 常見的關聯分析演算法有 Apriori、FP-Growth等,
- 關聯
- 分類與預測
- 常見的分類模型機演算法
- 決策樹模型
- 神經網路模型
- 線性回歸模型
- 常見的分類模型機演算法
- 聚類
- 常見的聚類演算法有 K-Means、GMM等,
- 孤立點檢測
- 趨勢和演變分析
- 資料挖掘的程序:
- 確定業務物件
- 資料的選擇
- 資料挖掘的資料主要有兩種來源:
- 從資料倉庫中來
- 從資料庫中來
- 資料挖掘的資料主要有兩種來源:
- 資料的預處理
- 建模
- 模型評估
- 模型部署
- 資料挖掘的程序:
第三節 大資料管理技術
大資料(Big Data)時代
一、大資料的定義
目前大資料尚無統一的定義,通常被認為是資料量很大、資料形式多樣化的資料,
一般意義上,大資料是指無法在可容忍的時間內用現有資訊技術和軟、硬體工具對其進行感知、獲取、管理、處理的服務的資料集合,且其具有如下特征:
- 資料量巨大,即大量化(Volume)
- 資料種類繁多,即多樣化(Variety)
- 處理速度快,即快速化(Velocity)
- 價值(Value)密度低
- 價值密度的高低與資料總量的大小成反比
- 大資料的本質并非在于大,而在于其價值含量
二、大資料管理技術典型代表
1 大資料存盤
分布式檔案系統 HDFS
2 NoSQL 資料管理系統
- NoSQL 有兩種解釋:
- Non-Relational 非關系資料庫
- Not Only SQL 資料管理技術不僅僅是 SQL
橫向擴展
NoSQL 系統支持的資料存盤模型通常有鍵值(Key-Value)模型、檔案(Document)模型、列(Column)模型和圖(Graph)模型等,
- 鍵值(Key-Value)存盤 哈希函式
- Tokyo Cabinet/Tyrant
- Redis
- Oracle BDB
- 檔案存盤
- CouchDB
- MongoDB
- 列存盤
- Cassandra
- HBase
- 圖存盤
- 結點、屬性、邊
3 MapReduce 技術
MapReduce 以 Key/Value 的分布式存盤系統為基礎,通過元資料集中存盤、資料以 chunk 為單位分布存盤和資料 chunk 冗余復制來保證其高可用性,
MapReduce 是一種并行編程模型,
MapReduce 是一種簡單易用的軟體框架,
通常,計算結點和存盤結點是同一個節點,即 MapReduce 框架和 Hadoop 分布式檔案系統運行于相同的結點集,
本文來自博客園,作者:QIAOPENGJUN,轉載請注明原文鏈接:https://www.cnblogs.com/QiaoPengjun/p/17294490.html
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/549376.html
標籤:其他
