前言

我們已經進入大資料實時分析時代，

點我跳轉文末 領書，價值 118 元的《Python商業資料挖掘（第6版）》！

用Python展示資料挖掘的理論、技術和應用，大資料必備書籍！

今天聊聊一種列式資料庫，基于 MPP 和真正列式資料庫技術，創建了面向大資料實時分析的全新架構：Vertica，

本篇文章 點贊 + 收藏 + 評論！評論區點贊前三，皆可參與送書活動！

1、傳統分析系統面臨巨大挑戰

隨著大資料時代的到來，目前傳統的行式資料庫面臨巨大的挑戰：

隨著資料量的爆發式增長，加重 I/O 瓶頸的問題，已經達到了 I/O 瓶頸
分析查詢性能差，查詢時間以天為單位
資料分析浮于表面，無法滿足深度挖掘分析需求
資料量的暴漲使得批處理時間越來越長，甚至無法完成，無法滿足時效性要求

傳統分析系統面臨巨大挑戰，究其根源，在于傳統分析系統的架構過于陳舊，跟不上時代的發展，

2、Vertica 介紹

Vertica 是驅動全球許多資料驅動型企業的背后核心支持，

它的本質是高性能的統一分析平臺，Vertica 廣泛服務于全球各行各業高要求的旗艦級客戶——從飛利浦到 The Trade Desk、Uber 以及許多其他公司，為它們提供高性能資料存盤及分析服務，并能夠輕松地將這些強大的功能運用至最大規模和最苛刻的分析作業上來，

得益于 Vertica，眾多企業及其客戶能夠比市場上任何分析資料平臺都更快地獲得預測性的業務洞察，

關系資料庫大師 Michael Stonebraker (2014 年圖靈獎獲得者) 基于自己多年的關系資料庫經驗，滿足大資料實時分析的要求，基于全新的無共享大規模并行架構（MPP）和真正列式資料庫技術，創建了 Vertica 這個面向大資料實時分析的分析平臺，

采用無共享 MPP 架構
基于標準 x86 服務器
列式存盤，高性能，極大降低 I/O
高可用，高壓縮率
可擴展性強，節點無限制
高安全性
高兼容性
機器學習和高級分析

與傳統的解決方案相比，Vertica 可以以 30% 的成本，實作 50 倍-1000 倍 的性能提高，

3、Vertica 優勢

作為全新架構的實時分析平臺，Veritca 有很多的創新，最為突出特點:

列式粗存盤和計算
無共享大規模并行處理（MPP）
分鐘級故障節點修復、彈性擴展和高并發彈性負載
實時分析
完整的關系資料庫功能和SQL標準支持
自動實作高可用性
自動優化和性能管理
高性能并行計算的基于庫內機器學習的預測分析和高級分析
基礎設施透明的開放統一分析平臺

Veritca 具有強大的功能，可迅速、可靠地管理大量資料，為您提供實時的業務智能以進行先進的大資料分析，從而將您的所有資料轉變為效益，

4、Vertica 技術

Vertica 采用高性能的列式存盤和計算技術，支持主動資料壓縮，支持準實時分析，自帶豐富的高級分析機器學習預測分析功能，具有彈性擴展以及自定義外部擴展等先進特性，是支撐大資料實時分析的理想平臺，

延遲物化：節省 I/O 消耗
延遲解壓縮：節省 CPU 開銷
主動壓縮：12種壓縮演算法，壓縮比可達 10：1
在線群集擴展：在線一鍵加入洗掉節點，自動完成資料重分布
K級容錯系數（K-safety）：自動維護 K+1 個副本，容忍任意 K 個節點故障
可選熱備節點：當有節點發生故障無法修復，熱備節點自動接管故障節點
容錯組和機構感知：避免機柜掉電等大規模硬體故障對整個集群可用性的傷害，集群規模超過 120 個節點，自動啟用容錯組
讀優化存盤（ROS）：資料按列式存盤在磁盤中
寫優化存盤（WOS）：為實時裝載的資料在記憶體中開辟一塊存盤區域，通過記憶體快速讀寫能力提升資料實時裝載能力，實作 7*24 不間斷實時資料加載
直接裝載 kafka：kafka 分布式訊息系統實時裝載海量資料流，以支持秒級實時分析
實時聚合計算：在資料裝載的同時，自動完成當前加載批資料的分組和 Top-k 排名等，后臺服務自動完成小批量聚合資料合并
扁平表：在表中增加包含通過外鍵從其他維度表關聯獲取預設值的列，自動完成寬表實時轉換，大幅提升性能和并發吞吐能力
分級存盤：可以為不同的 Schema 、表等物件、以及表磁區指定不同的存盤策略，指定不同的存盤位置
自動層次磁區：熱資料采用細粒度磁區，自動提高不常用資料的磁區粒度，自動化簡化磁區管理，避免了繁瑣的手工合并歷史磁區作業，減輕運維負擔
多租戶分鐘級快速部署：同時支持縱向和橫向多租戶隔離
自動優化設計：內置包含專家知識的資料庫優化設計器，提供負載分析器來收集資料庫運行負載資料，隨時提供自動化建議，從而大大降低 DBA 管理的成本
備份、恢復和集群復制：提供全面和高性能的備份和恢復功能，速度取決于磁盤和網路 I/O 能力
Apache Hadoop、 Amazon S3集成和資料湖：充分利用資料湖中的海量資料進行就地快速分析和預測，全面發掘所有資料資產的價值
SQL on Hadoop：可以作為 SQL 引擎直接部署到 Hadoop 平臺上，與 Hadoop 生態無縫集成
Spark集成：原生提供 Spark 連接器，支持 Spark 的 RDD 和 DataFrame 存取資料庫的表資料
機器學習和高級分析的預測分析：強調將分析演算法置與資料庫中，采用庫內機器學習方法，將模型放到資料所在的地方運行，而不是將資料傳輸到開發模型的單獨平臺
基礎設施透明的統一分析平臺：采用單一產品、相同的代碼庫，支持不同的部署選項

Vertica 的列式存盤和計算技術，通過針對列資料特點的主動壓縮技術和延遲物化、延遲解壓，節省了近 2 個量級 CPU 和 I/O 資源消耗，分析查詢性能比傳統行式資料庫快 50 到1000 倍，同時，CPU 和 I/O 資源的大幅節約，也大幅提升了資料裝載、資料匯出、資料處理和備份恢復等操作的性能，

只要集群中故障的節點數目不超過集群的總數目的一半， Vertica 集群的仍然是可用的，

Vertica 回應查詢請求時，會同時從 ROS 和 WOS 中查詢，合并結果后回傳客戶端，在系統不繁忙時，Vertica 有一個后臺異步任務（ Tuple Mover ）會把 WOS 區的資料批量地寫到 ROS 中，

5、Vertica 應用市場

Vertica業務發展迅速，業務遍及金融、電信、消費市場、在線網站和游戲、醫療和零售等多個行業，目前已有包括 Tweeter、Zynga、 Uber、 AT&T、 Bank of America、 Guess Inc., Verizon, Capital IQ 等在內的 2000 多個全球客戶，

隨著互聯網、移動互聯網、物聯網和各種智能終端、穿戴設備的大發展，各種資料無時不刻地生成，新資料的產生成大爆炸趨勢；法規要求必須保留更長時間的歷史資料，以便更多的歷史資料中更有效地分析各種業務變化的歷史趨勢，為未來業務發展提供科學依據；企業需要對原始資料進行深入分析和挖掘，以便即時改進業務決策，

🥇 評論區抽粉絲送書啦

本次贈書由博主聯合【清華大學出版社】一起贊助 💌 歡迎大家在評論區提出意見和建議! （抽 5 位幸運兒送書，實物圖如下）💌

《Python商業資料挖掘（第6版）》

【內容簡介】
本書前5版好評如潮，作為第6版，本書首次使用了Python語言，本書除了介紹用于統計和機器學習等領域的預測、分類、可視化、降維、推薦系統、聚類、文本挖掘、網路分析等方法之外，內容還包括：

● 新加入的合著者Peter Gedeck擁有使用Python講解商業分析課程的豐富經驗以及將機器學習應用于新藥發現程序的專業技能，在本書中，他十分樂于將這些經驗和技能與讀者分享，

● 討論資料挖掘中的倫理問題，

● 根據教師和學生的反饋意見對內容做了更新，

● 通過多個案例展示資料挖掘技術的實際應用，

● 每章后面的習題有助于讀者評估和加深對該章內容的理解，

● 在線支持網站提供了資料集、教學資料、習題答案、PPT教案和案例解決方案，

也有不想靠抽，想自己買的同學可以參考下面的鏈接！

京東自營購買鏈接：

《Python商業資料挖掘（第6版）》- 京東圖書

📢 注意：

🏆 想要跟著我一起打卡的朋友，可以 添加微信：Lucifer-4622 一起打卡，我保證能讓你學習之余識訓獎品🏅！

?? 加入資料庫社區跟我一起打卡：零基礎 21 天速通 openGauss 打卡活動報名貼！

🏆 抽獎方式：社區報名活動貼報名參加活動后，添加微信 Lucifer-4622 參與抽獎！

新的一周，活動獎勵升級，增加抽獎池，絕對豐厚！詳情戳：https://bbs.csdn.net/topics/603632186

社區每日打卡地址（日更）：https://docs.qq.com/doc/DRWJIV2VGdktPS3NE

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/381952.html

標籤：其他

上一篇：一份 “內卷”面試題跟答案，讓我14K 變成了 28K

下一篇：Springboot熱部署