主頁 >  其他 > 基于云原生的大資料實時分析方案實踐

基于云原生的大資料實時分析方案實踐

2020-12-03 06:21:19 其他

1 方案介紹

大資料處理技術現今已廣泛應用于各個行業,為業務解決海量存盤和海量分析的需求,但資料量的爆發式增長,對資料處理能力提出了更大的挑戰,同時對時效性也提出了更高的要求,實時分析已成為企業大資料分析中最關鍵的術語,這意味企業可將所有資料用于大資料實時分析,實作在資料接受同時即刻為企業生成分析報告,從而在第一時間作出市場判斷與決策,典型的場景如電商大促和金融風控等,基于延遲資料的分析結果已經失去了價值,另外隨著云原生時代的到來,云原生天生具有的高效部署、敏捷迭代、云計算資源成本和彈性擴展等優勢,正在加速和縮短業務系統落地程序,云原生同樣可助力大資料這一程序,

本文主要介紹如何利用 Kubernetes 實作云原生大資料實時分析平臺,

2 總體架構

img

  • Data Streams:基于 Kafka 的資料流接入方案
  • Data Computations:基于 Spark Streaming 與 Flink 的流計算方案
  • Data Pipeline:基于 TKDF(Tencent Kubernetes Data Flow) 的資料作業流方案
  • Data Store:基于 Iceberg 與 HDFS 的資料湖方案
  • Data Interactive Analysis:基于 Spark SQL 與 Presto 的 SQL 互動式分析方案
  • Data Intelligence:基于 Metabase 的資料可視化方案以及若干資料接入方式
  • Data Infrastructure:基于 TKBS(Tencent Kubernetes Bigdata Suite)的云原生大資料套件方案,可幫助用戶一鍵在 Kubernetes 上部署生產可用的大資料平臺;基于 TKE / EKS / TKEStack 的 Kubernetes 引擎方案,可為用戶提供生產、管控和使用 Kubernetes 集群服務

3 資料接入流

在實時分析中,需要持續、快速、實時地接受源源不斷的資料與事件,作為整個分析平臺的資料來源與入口,這個程序最好是基于流的、高吞吐、可擴展、可對接主流計算引擎,我們選擇 Apache Kafka 作為事件流處理的解決方案,

Apache Kafka 是一個分布式流處理平臺,被很多公司廣泛使用于資料管道、流分析、資料集成,訊息中間件等領域,Kafka 適合場景包括:

  • 訊息佇列:構造實時流資料管道,它可以在系統或應用之間可靠地獲取資料
  • 流處理:構建實時流式應用程式,對這些流資料進行轉換或者影響

Apache Kafka 可通過容器化部署在 Kubernetes,充分利用 Kubernetes 資源自動部署、自動擴展、一次配置任意運行等能力做到云原生賦能,

img

4 資料計算

在傳統的資料處理流程中,總是先收集資料,然后將資料放到資料庫中,當人們需要的時候通過資料庫對資料做查詢,得到答案或進行相關的處理,這樣看起來雖然非常合理,但是結果卻非常的緊湊,尤其是在一些實時搜索應用環境中的某些具體問題,類似于 MapReduce 方式的離線處理并不能很好地解決問題,這就引出了一種新的資料計算結構 - 流計算方式,它可以很好地對大規模流動資料在不斷變化的運動程序中實時地進行分析,捕捉到可能有用的資訊,并把結果發送到下一計算節點,

在云原生下,我們將流計算引擎容器化和遷移到 Kubernetes 上,利用 Kubernetes 自動化部署、HPA 等能力實作計算資源動態創建、調度與伸縮,云原生賦予了流計算即拿即用資源的能力,

img

當前主流的流計算引擎均可順暢的運行在 Kubernetes 之上,

4.1 Spark on Kubernetes

Spark 在 2.3 之后,支持將集群創建和托管到 Kubernetes 中,以 native 方式運行,

img

Kubernetes 可幫助 Spark 任務分配和管理計算資源,提供網路和存盤,管理任務生命周期,動態的橫向擴展能力,以及連接 Kubernetes 生態其他服務的能力,

Flink 在 Kubernetes 上支持 standalone 與 native 兩種模式,standalone 相當于利用 Kubernetes Deployment、Service、Configmap 等在 Kubernetes 上創建一個完整 Flink 集群,native 方式類似 Spark native,是通過內置于 Flink Client 的 K8s Client 與 Kubernetes 集群互動,負責組件資源的創建和銷毀,Flink 新引入的 Application 模式,更是可以在提交 Job 的同時動態創建 Flink 集群,

img

5 資料作業流

資料作業流(Data Pipeline)可以理解為一個貫穿資料產品或資料系統的管道,而資料就是管道載體的運輸物件,資料作業流連接了資料處理分析的各個環節,將整個龐雜的系統變得井然有序,便于管理和擴展,

img

我們根據生產經驗,設計和研發了基于云原生的資料作業流方案 TKDF,以幫助用戶集中精力從資料中獲取所需要的資訊,而不是把精力花費在管理日常資料和管理資料庫方面,

img

TKDF 有以下優勢:

  • 基于云原生
  • YAML 宣告式定義
  • 支持主流資料源
  • 介面式封裝,可插件化增加新的資料源實作
  • 完整的資料生命周期管理
  • 原生支持 Spark Streaming
  • 計算模型抽象,支持基數統計近似、漏斗模型、模糊計算、產品運營指標等

6 資料湖

現今大資料存盤和處理需求越來越多樣化,在后 Hadoop 時代,如何構建一個統一的資料湖存盤,并在其上進行多種形式的資料分析,成了企業構建大資料生態的一個重要方向,怎樣快速、一致、原子性地在資料湖存盤上構建起 Data Pipeline,成了亟待解決的問題,并且伴隨云原生時代到來,云原生天生具有的自動化部署和交付能力也正催化這一程序,

基于 Hadoop 的云原生資料湖

傳統方式下,用戶在部署和運維大資料平臺時通常采用手動或半自動化方式,這往往消耗大量人力,穩定性也無法保證,Kubernetes 的出現,革新了這一程序,Kubernetes 提供了應用部署和運維標準化能力,用戶業務在實施 Kubernetes 化改造后,可運行在其他所有標準 Kubernetes 集群中,在大資料領域,這種能力可幫助用戶快速部署和交付大資料平臺(大資料組件部署尤為復雜),尤其在大資料計算存盤分離的架構中,Kubernetes 集群提供的 Serverless 能力,可幫助用戶即拿即用的運行計算任務,并且再配合離在線混部方案,除了可做到資源統一管控降低復雜度和風險外,集群利用率也會進一步提升,大幅降低成本,

我們使用 TKBS 在 Kubernetes 上構建 Hadoop 資料湖:

img

基于 Iceberg 的云原生實時資料湖

Apache Iceberg is an open table format for huge analytic datasets. Iceberg adds tables to Presto and Spark that use a high-performance format that works just like a SQL table.

Apache Iceberg 是由 Netflix 開發開源的,其于2018年11月16日進入 Apache 范訓器,是 Netflix 公司資料倉庫基礎,Iceberg 本質上是一種專為海量分析設計的表格式標準,可為主流計算引擎如 Presto、Spark 等提供高性能的讀寫和元資料管理能力,Iceberg 不關注底層存盤(如 HDFS)與表結構(業務定義),它為兩者之間提供了一個抽象層,將資料與元資料組織了起來,

Iceberg 主要特性包括:

  • ACID:具備 ACID 能力,支持 row level update/delete;支持 serializable isolation 與 multiple concurrent writers
  • Table Evolution:支持 inplace table evolution(schema & partition),可像 SQL 一樣操作 table schema;支持 hidden partitioning,用戶無需顯示指定
  • 介面通用化:為上層資料處理引擎提供豐富的表操作介面;屏蔽底層資料存盤格式差異,提供對 Parquet、ORC 和 Avro 格式支持

依賴以上特性,Iceberg 可幫助用戶低成本的實作 T+0 級資料湖,我們使用 Iceberg + HDFS 的方式在 Kubernetes 上構建云原生資料湖,

img

我們使用 Kubernetes 負責應用自動化部署與資源管理調度,為上層屏蔽底層環境復雜性,通過 TKBS 一鍵式部署云原生資料湖,Iceberg + HDFS 實作了基于 Hadoop 生態的實時資料湖,為大資料應用提供資料訪問及存盤能力,Spark、Flink、Presto 等計算引擎以 native 或 standalone 方式運行于 Kubernetes 集群中,資源可隨提交任務即拿即用,與在線業務混部后,更能大幅提升集群資源利用率,

  • Resource Layer:使用 Kubernetes 提供資源管控能力
  • Data Access Layer:使用 Iceberg 提供 ACID、table 等資料集訪問操作能力
  • Data Storage Layer:使用 HDFS 提供資料存盤能力
  • Data Computation Layer:使用 Spark / Flink / Presto on Kubernetes 提供流批計算能力或實作 SQL 引擎

7 互動式分析

實時分析除了持續實時分析外(Continuous real-time analytics),還包括互動式分析(On-demand real-time analytics),互動式分析是一種反應式分析方法,用戶通過查詢獲取分析結果(比如輸入 SQL 陳述句),我們采用 SQL 陳述句作為互動式查詢陳述句,支持 Spark SQL 與 Presto 兩種 SQL 查詢引擎,

7.1 Presto on Kubernetes

Presto 是由 Facebook 開源的分布式 SQL 查詢引擎,專門為互動式查詢所設計,提供分鐘級乃至亞秒級低延時的查詢性能,它既可支持非關系資料源,例如 HDFS、Amazon S3、Cassandra、MongoDB 和 HBase,又可支持關系資料源,例如 MySQL、PostgreSQL、Amazon Redshift、Microsoft SQL Server 和 Teradata,

Presto 查詢引擎是 Master-Slave 架構,由一個 Coordinator節點,一個 Discovery Server 節點,多個 Worker 節點組成,

img

我們通過 standalone 方式將 Presto 集群部署在 Kubernetes 上:

img

7.2 Spark SQL on Kubernetes

Spark SQL 是 Spark 結構化資料的執行模塊,可支持使用 SQL 在 Spark 查詢分析結構化資料 DataFrames、Datasets,我們同樣支持使用 Spark SQL 作為互動式分析引擎,將執行的 Spark 任務以 native 方式運行在 Kubernetes 上,

8 資料智能分析

我們正處于大資料和數字化轉型的時代,資料無處不在,運用資料驅動的思想和策略在實踐中逐漸成為共識,資料的價值已在科學研究和工商業的不同領域得到充分展現,資料智能工具和技術的應用可以幫助決策者更好地理解所收集的資訊,從而開發出更好的業務流程,我們通過提供資料介面與接入外部 BI 來達成這一目的,

8.1 資料介面

我們通過以下方式提供互動式入口或資料介面,以幫助用戶使用或接入第三方系統:

  • 圖形化界面:基于 Metabase 的開源 BI 系統
  • JDBC 介面:通過 Spark Thrift Server 或 Presto JDBC Driver 的連接
  • 命令列介面:通過 Spark SQL CLI 或 Presto CLI 連接

8.2 資料可視化

Metabase 是一個開源的商業智能工具,你可以向它提出關于資料的問題(資料查詢),而獲取有意義的格式化結果(圖形化視圖),我們可通過它理解資料、分析資料,以資料驅動決策,

img

Metabase 支持諸多資料源及計算引擎接入:

img

我們利用官方提供的 Helm 包,可以方便的將 Metabase 部署于 Kubernetes 上,

9 資料基礎設施

9.1 TKBS

TKBS(Tencent Kubernetes Bigdata Suite)是我們根據生產經驗開發的云原生大資料套件專案,用戶可使用 TKBS 一鍵在 Kubernetes 上部署生產可用的大資料平臺,TKBS 當前已支持 Hadoop 主要組件以及主流大資料組件的部署,

TKBS 主要特點如下:

  • 兼容社區:支持原生 Kubernetes
  • 一鍵部署:采用 Helm 應用化封裝
  • 云原生增強:與騰訊云 TKE、EKS、CBS、CLB、COS 和 CHDFS 等云服務深度整合;支持開源 TKEStack
  • 存算分離:支持存盤計算分離架構
  • 自動擴縮容:支持自動 HPA 和 CA,節省運營成本
  • 離在線混部:支持與在線業務混合部署,提升資源利用率

9.2 TKE / EKS / TKEStack

我們使用騰訊云 TKE / EKS 或開源 TKEStack 幫助我們生產和管理 Kubernetes 集群,

  • TKE:騰訊云容器服務(Tencent Kubernetes Engine ,TKE)基于原生 kubernetes 提供以容器為核心的、高度可擴展的高性能容器管理服務
  • EKS:騰訊云彈性容器服務(Elastic Kubernetes Service,EKS)是騰訊云容器服務推出的無須用戶購買節點即可部署作業負載的服務模式
  • TKEStack:騰訊云 TKE 團隊開源的一款集強壯性和易用性于一身的企業級容器編排引擎,以極簡的向導式界面提供了容器應用的全生命周期管理能力,幫助用戶在私有云環境中敏捷、高效地構建和發布應用程式

10 結尾

云原生的到來不止為大資料部署和交付帶來了變革,它更是幫助大資料連接了一個生態,利用云原生生態,真正做到了為大資料賦予云的能力,使得大資料可以“生長在云端”,另外,云原生在大資料領域的應用,也同樣幫助云原生拓展了能力邊界,豐富了落地場景,為未來“Everything native on Cloud”打下夯實基礎,

TKBS 已上線騰訊云 TKE 應用市場,下個版本會加入對實時分析完整方案與 TKDF 的支持,我們希望憑借基于 TKBS 與 TKDF 的大資料實時分析方案,可以幫助用戶縮短大資料交付程序,簡化大資料系統部署與運維復雜度,讓用戶聚焦在挖掘資料價值本身,另一方面,借助云原生架構,我們希望能幫助用戶的大資料業務與云發生聯系,為用戶帶來更多的可能性,幫助用戶創造更多的價值,

生于云上,為云而生!

【騰訊云原生】云說新品、云研新術、云游新活、云賞資訊,掃碼關注同名公眾號,及時獲取更多干貨!!

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/228765.html

標籤:其他

上一篇:為什么 WordPress 鏡像用起來順手?

下一篇:容器(七)安裝 Docker Machine【40】

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 2023年最新微信小程式抓包教程

    01 開門見山 隔一個月發一篇文章,不過分。 首先回顧一下《微信系結手機號資料庫被脫庫事件》,我也是第一時間得知了這個訊息,然后跟蹤了整件事情的經過。下面是這起事件的相關截圖以及近日流出的一萬條資料樣本: 個人認為這件事也沒什么,還不如關注一下之前45億快遞資料查詢渠道疑似在近日復活的訊息。 訊息是 ......

    uj5u.com 2023-04-20 08:48:24 more
  • web3 產品介紹:metamask 錢包 使用最多的瀏覽器插件錢包

    Metamask錢包是一種基于區塊鏈技術的數字貨幣錢包,它允許用戶在安全、便捷的環境下管理自己的加密資產。Metamask錢包是以太坊生態系統中最流行的錢包之一,它具有易于使用、安全性高和功能強大等優點。 本文將詳細介紹Metamask錢包的功能和使用方法。 一、 Metamask錢包的功能 數字資 ......

    uj5u.com 2023-04-20 08:47:46 more
  • vulnhub_Earth

    前言 靶機地址->>>vulnhub_Earth 攻擊機ip:192.168.20.121 靶機ip:192.168.20.122 參考文章 https://www.cnblogs.com/Jing-X/archive/2022/04/03/16097695.html https://www.cnb ......

    uj5u.com 2023-04-20 07:46:20 more
  • 從4k到42k,軟體測驗工程師的漲薪史,給我看哭了

    清明節一過,盲猜大家已經無心上班,在數著日子準備過五一,但一想到銀行卡里的余額……瞬間心情就不美麗了。最近,2023年高校畢業生就業調查顯示,本科畢業月平均起薪為5825元。調查一出,便有很多同學表示自己又被平均了。看著這一資料,不免讓人想到前不久中國青年報的一項調查:近六成大學生認為畢業10年內會 ......

    uj5u.com 2023-04-20 07:44:00 more
  • 最新版本 Stable Diffusion 開源 AI 繪畫工具之中文自動提詞篇

    🎈 標簽生成器 由于輸入正向提示詞 prompt 和反向提示詞 negative prompt 都是使用英文,所以對學習母語的我們非常不友好 使用網址:https://tinygeeker.github.io/p/ai-prompt-generator 這個網址是為了讓大家在使用 AI 繪畫的時候 ......

    uj5u.com 2023-04-20 07:43:36 more
  • 漫談前端自動化測驗演進之路及測驗工具分析

    隨著前端技術的不斷發展和應用程式的日益復雜,前端自動化測驗也在不斷演進。隨著 Web 應用程式變得越來越復雜,自動化測驗的需求也越來越高。如今,自動化測驗已經成為 Web 應用程式開發程序中不可或缺的一部分,它們可以幫助開發人員更快地發現和修復錯誤,提高應用程式的性能和可靠性。 ......

    uj5u.com 2023-04-20 07:43:16 more
  • CANN開發實踐:4個DVPP記憶體問題的典型案例解讀

    摘要:由于DVPP媒體資料處理功能對存放輸入、輸出資料的記憶體有更高的要求(例如,記憶體首地址128位元組對齊),因此需呼叫專用的記憶體申請介面,那么本期就分享幾個關于DVPP記憶體問題的典型案例,并給出原因分析及解決方法。 本文分享自華為云社區《FAQ_DVPP記憶體問題案例》,作者:昇騰CANN。 DVPP ......

    uj5u.com 2023-04-20 07:43:03 more
  • msf學習

    msf學習 以kali自帶的msf為例 一、msf核心模塊與功能 msf模塊都放在/usr/share/metasploit-framework/modules目錄下 1、auxiliary 輔助模塊,輔助滲透(埠掃描、登錄密碼爆破、漏洞驗證等) 2、encoders 編碼器模塊,主要包含各種編碼 ......

    uj5u.com 2023-04-20 07:42:59 more
  • Halcon軟體安裝與界面簡介

    1. 下載Halcon17版本到到本地 2. 雙擊安裝包后 3. 步驟如下 1.2 Halcon軟體安裝 界面分為四大塊 1. Halcon的五個助手 1) 影像采集助手:與相機連接,設定相機引數,采集影像 2) 標定助手:九點標定或是其它的標定,生成標定檔案及內參外參,可以將像素單位轉換為長度單位 ......

    uj5u.com 2023-04-20 07:42:17 more
  • 在MacOS下使用Unity3D開發游戲

    第一次發博客,先發一下我的游戲開發環境吧。 去年2月份買了一臺MacBookPro2021 M1pro(以下簡稱mbp),這一年來一直在用mbp開發游戲。我大致分享一下我的開發工具以及使用體驗。 1、Unity 官網鏈接: https://unity.cn/releases 我一般使用的Apple ......

    uj5u.com 2023-04-20 07:40:19 more