1、什么是mpp?
MPP (Massively Parallel Processing),即大規模并行處理,在資料庫非共享集群中,每個節點都有獨立的磁盤存盤系統和記憶體系統,業務資料根據資料庫模型和應用特點劃分到各個節點上,每臺資料節點通過專用網路或者商業通用網路互相連接,彼此協同計算,作為整體提供資料庫服務,非共享資料庫集群有完全的可伸縮性、高可用、高性能、優秀的性價比、資源共享等優勢,
簡單來說,MPP是將任務并行的分散到多個服務器和節點上,在每個節點上計算完成后,將各自部分的結果匯總在一起得到最終的結果(與Hadoop相似),
2、MPP(大規模并行處理)架構
MPP架構的系統(Presto/Impala/SparkSQL/Drill等)有很好的資料量和靈活性支持,但是對回應時間是沒有保證的,當資料量和計算復雜度增加后,回應時間會變慢,從秒級到分鐘級,甚至小時級都有可能,
(MPP架構)
3、 MPP架構特征
● 任務并行執行;
● 資料分布式存盤(本地化);
● 分布式計算;
● 私有資源;
● 橫向擴展;
● Shared Nothing架構,
● 缺點:性能不穩定,
4、 MPP服務器架構
它由多個SMP服務器通過一定的節點互聯網路進行連接,協同作業,完成相同的任務,從用戶的角度來看是一個服務器系統,其基本特征是由多個SMP服務器(每個SMP服務器稱節點)通過節點互聯網路連接而成,每個節點只訪問自己的本地資源(記憶體、存盤等),是一種完全無共享(Share Nothing)結構,因而擴展能力最好,理論上其擴展無限制,
5、MPPDB
MPPDB是一款 Shared Nothing 架構的分布式并行結構化資料庫集群,具備高性能、高可用、高擴展特性,可以為超大規模資料管理提供高性價比的通用計算平臺,并廣泛地用于支撐各類資料倉庫系統、BI 系統和決策支持系統
6、MPPDB架構
MPP 采用完全并行的MPP + Shared Nothing 的分布式扁平架構,這種架構中的每一個節點(node)都是獨立的、自給的、節點之間對等,而且整個系統中不存在單點瓶頸,具有非常強的擴展性,
7、 MPPDB特征
MPP 具備以下技術特征:
1) 低硬體成本:完全使用 x86 架構的 PC Server,不需要昂貴的 Unix 服務器和磁盤陣列;
2) 集群架構與部署:完全并行的 MPP + Shared Nothing 的分布式架構,采用 Non-Master 部署,節點對等的扁平結構;
3) 海量資料分布壓縮存盤:可處理 PB 級別以上的結構化資料,采用 hash分布、random 存盤策略進行資料存盤;同時采用先進的壓縮演算法,減少存盤資料所需的空間,可以將所用空間減少 1~20 倍,并相應地提高 I/O 性能;
4) 資料加載高效性:基于策略的資料加載模式,集群整體加載速度可達2TB/h;
5) 高擴展、高可靠:支持集群節點的擴容和縮容,支持全量、增量的備份/恢復;
6) 高可用、易維護:資料通過副本提供冗余保護,自動故障探測和管理,自動同步元資料和業務資料,提供圖形化工具,以簡化管理員對資料庫的管理作業;
7) 高并發:讀寫不互斥,支持資料的邊加載邊查詢,單個節點并發能力大于 300 用戶;
8) 行列混合存盤:提供行列混合存盤方案,從而提高了列存資料庫特殊查詢場景的查詢回應耗時;
9) 標準化:支持SQL92 標準,支持 C API、ODBC、JDBC、ADO.NET 等介面規范,
8、 常見MPPDB
● GREENPLUM(EMC)
● Asterdata(Teradata)
● Nettezza(IBM)
● Vertica(HP)
● GBase 8a MPP cluster(南大通用)
9、 MPPDB、Hadoop與傳統資料庫技術對比與適用場景
MPPDB與Hadoop都是將運算分布到節點中獨立運算后進行結果合并(分布式計算),但由于依據的理論和采用的技術路線不同而有各自的優缺點和適用范圍,兩種技術以及傳統資料庫技術的對比如下:
特征 |
Hadoop |
MPPDB |
傳統資料倉庫 |
平臺開放性 |
高 |
低 |
低 |
運維負責度 |
高 |
中 |
中 |
擴展能力 |
高 |
中 |
低 |
擁有成本 |
低 |
中 |
高 |
系統和資料管理成本 |
高 |
中 |
中 |
應用開發維護成本 |
高 |
中 |
中 |
SQL支持 |
中(低) |
高 |
高 |
資料規模 |
PB級別 |
部分PB |
TB級別 |
計算性能 |
對非關系型操作效率高 |
對關系型操作效率高 |
對關系型操作效率中 |
資料結構 |
機構化、半結構化和非機構化資料 |
結構化資料 |
結構化資料 |
綜合而言,Hadoop和MPP兩種技術的特定和適用場景為:
● Hadoop在處理非結構化和半結構化資料上具備優勢,尤其適合海量資料批處理等應用要求,
● MPP適合替代現有關系資料機構下的大資料處理,具有較高的效率,
MPP適合多維度資料自助分析、資料集市等;Hadoop適合海量資料存盤查詢、批量資料ETL、非機構化資料分析(日志分析、文本分析)等,
由上述對比可預見未來大資料存盤與處理趨勢:MPPDB+Hadoop混搭使用,用MPP處理PB級別的、高質量的結構化資料,同時為應用提供豐富的SQL和事物支持能力;用Hadoop實作半結構化、非結構化資料處理,這樣可以同時滿足結構化、半結構化和非結構化資料的高效處理需求,
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/1084.html
標籤:大數據
上一篇:滴滴AI Labs斬獲國際機器翻譯大賽中譯英方向世界第三
下一篇:滴滴資料倉庫指標體系建設實踐