主頁 > 資料庫 > 使用ElasticSearch賦能HBase二級索引 | 實踐一年后總結

使用ElasticSearch賦能HBase二級索引 | 實踐一年后總結

2020-09-12 19:12:11 資料庫

前言:還記得那是2018年的一個夏天,天氣特別熱,我一邊擦汗一邊聽領導大刀闊斧的講述自己未來的改革藍圖,會議開完了,核心思想就是:我們要搞一個資料大池子,要把公司能灌的資料都灌入這個大池子,然后讓別人用 各種姿勢 來撈這些資料,系統從開始打造到上線差不多花了半年多不到一年的時間,線上穩定運行也有一年多的時間,今天想簡單做個總結,

一,背景介紹

公司成立差不多十五六年了,老公司了,也正是因為資格老,業務迭代太多了,各個業務線錯綜復雜,介面呼叫也密密麻麻,有時候A向B要資料,有時候B向C要介面,有時候C向A要服務;各個業務線各有各的財產,各自為營,像一個個小諸侯擁兵自重,跑腿費會議費都貴的很,面對這個現狀,我們急需進行一波大改造了,

而這個系統(我們暫且叫它天池吧),正是為了整合公司各個業務線的資源,改造這個錯綜復雜的蜘蛛網為簡單的直線班車,省去不必要的介面呼叫、業務穿插、會議溝通以及不知去哪里拿資料、拿不到資料、拿資料慢的困擾,當然,更節省了產品、開發人員的時間,提升了各業務線整體作業效率,

幾個詞形容一下天池:穩、快、大、省、清晰,

二,業務梳理

經過對公司各線業務進行梳理,總結出以下幾大常見的資料輸出模型:

  • Key-Value快速輸出型,最簡單的kv查詢,并發量可能很高,速度要求快,比如風控,

  • Key-Map快速輸出型,定向輸出,比如常見的通過文章id獲取文章詳情資料,kv查詢升級版,

  • MultiKey-Map批量輸出型,比如常見的推薦Feed流展示,Key-Map查詢升級版,

  • C-List多維查詢輸出型,指定多個條件進行資料過濾,條件可能很靈活,分頁輸出滿足條件的資料,這應該是非常常見的,比如篩選指定標簽或打分的商品進行推薦、獲取指定用戶過去某段時間買過的商品等等,

  • G-Top統計排行輸出型,根據某些維度分組,展示排行,如獲取某論壇熱度最高Top10帖子,

  • G-Count統計分析輸出型,數倉統計分析型需求,

  • Multi-Table混合輸出型,且不同表查詢條件不同,如串列頁混排輸出內容,

  • Term分詞輸出型

或許還有更多資料模型,這里就不再列舉了,從前端到后臺,無論再多資料模型,其實都可以轉化為索引+KV的形式進行輸出,甚至有時候,我覺得索引+KV>SQL

基于此業務資料模型分析及公司對ElasticSearch的長期使用,我們最終選擇了HBase + ElasticSearch這樣的技術方案來實作,

三,架構設計與模塊介紹

先看一下整體架構圖,如下圖:
架構設計

整個天池系統核心主要分為資料接入層、策略輸出層、元資料管理、索引建立、平臺監控以及離線資料分析六大子模塊,下面將分別對其進行介紹,

1. 資料接入模塊介紹

資料接入模塊我們主要對HBase-Client API進行了二次輕封裝,支持在線RESTFUL服務介面和離線SDK包兩種主要方式對外提供服務,同時兼容HBase原生API和HBase BulkLoad大批量資料寫入,

其中,在線RESTFUL服務以HBase Connection長連接的方式對外提供服務,好處是:在性能影響不大的情況下方便跨語言操作,更主要的一點是便于管理,在這一層,可以做很多作業,比如權限管理、負載均衡、失敗恢復、動態擴縮容、資料介面監控等等,當然這一切都要感謝K8S的強大能力,

2. 策略輸出模塊介紹

該模塊主要就是對接我們上文業務梳理模塊歸納的各種業務需求,都由此模塊提供服務,顧名思義,策略模塊主要用于為用戶配置策略,或用戶自己配置策略,最侄訓于策略生成策略ID,

這一層我們主要是對ElasticSearch和HBase的一些封裝,通過動態模板將用戶請求轉化為ElasticSearch DSL陳述句,而后對ES進行查詢,直接回傳資料或是獲取到rowkey進而查詢HBase進行結果回傳,

通過元資料管理中心,我們可以判斷出用戶所需欄位是否被索引欄位覆寫,是否有必要二次查詢HBase回傳結果,而這整個查詢程序,用戶并不會感知,他們只需要一個PolicyID即可,

當然,我們也在不斷普及用戶如何通過后臺自己配置生成策略,合作較多的業務方,甚至可以自己在測驗環境配置好一切,完成資料的自助獲取作業,而我們需要做的,只是一鍵同步測驗環境的策略到線上環境,并通知他們線上已可用,整個程序5~10分鐘,一個新的介面就誕生了,

其次,由于ES抗壓能力畢竟不如HBase猛,我們的策略介面也會根據業務需求決定是否開啟快取,事實上,大部分介面是可以接受短時間內資料快取的,當然像簡單KV、K-Map、Mk-Map這種是直接走HBase的,需求量也挺大,

到目前為止,上述業務輸出模型基本都已支持動態策略配置,這真的要感謝ElasticSearch強大的語法和業務場景覆寫能力,畢竟在我看來,ElasticSearch更像是一個為業務而生的產品,深入了解ES后,你會發現在有些方面它真的比SQL更強大;現在我們的策略平臺甚至支持分詞查詢、分桶查詢、多表聯合查詢、TopN、聚合查詢等多種復合查詢,這都要感謝ElasticSearch強大的功能,

3. 元資料管理模塊介紹

大家都知道HBase是No-Schema模型,元資料管理層我們也就是為其和ES做一個虛擬的Schema管理,同時去動態控制哪些欄位要建索引,在資料接入的時候,我們會通過元資料中心判斷資料是否符合規則(我們自己定的一些規則);在資料輸出的時候,我們控制哪些策略需要走快取,哪些策略不需要走HBase等等,其次,維護一套元資料方便我們做一些簡單的頁面指標監控,并對ES和HBase有一個總線控制(如建表刪表等),該模塊就不多說了,

4. 索引建立模塊介紹

這個模塊呢,其實算是相對比較復雜的一個模塊,我們沒有采用HBase + WAL + ES的方式而是HBase + Kafka + ES 的方式去同步索引資料,一是因為WAL層不太好控制和監控,二是ES消費WAL的效率問題,三是WAL層資料一致性不好維護,

所以我們把一部分的作業放到了資料接入層,在資料寫完HBase之后,即對外回應Success并異步將資料推至Kafak佇列中等待ES去二次消費;寫入失敗則對外拋出例外,我們首先要保證的是,寫入HBase要么成功,要么失敗,

在ES消費層,我們是可以動態指定消費執行緒數量的,當Kafka Lag堆積超過一定閾值(閾值可進行Group級調節和監控),會進行警報,并動態調整消費執行緒數,

在資料一致性方面,我們也做了大量作業,且我們只保證資料最終一致性,當資料寫入HBase成功之后,我們會對寫Kafka和寫ES進行鏈路追蹤,任何一個環節一旦寫入失敗,即將Failed Key寫入黑名單(Redis存盤),

對于進入黑名單的資料,我們會起定時調度執行緒去掃描這些Key并進行自動回補索引,回補方式是:到HBase中拿最新的資料再次寫入佇列中去,如果此時又失敗,我們會把這些Key放入終極死亡名單(Redis存盤),并通過定時調度執行緒去掃描這個死亡名單,如果有尸體,則報警,此時人力介入,

這種分層處理方式,也是借鑒了些許HBase LSM的思想,勿噴勿噴~

我簡單畫了一下這個流程,方便大家理解,見下圖:

資料流程圖

5. 平臺監控模塊介紹

該模塊不再細說了,主要是Hadoop集群、HBase集群的監控,外加K8S平臺監控,K8S監控平臺主要基于Prometheus+Grafana+Fluent實作,

6. 離線資料分析模塊介紹

該模塊依賴于HBase Replication集群間復制功能實作,資料在同步至離線HBase集群之后,主要用于對接資料倉庫、Spark讀寫分析、大范圍掃描操作等等,主要是減小面向分析型作業對線上實時平臺的影響,

六大模塊就簡單介紹到這里,

四,心得

總的感受:使用ES賦能HBase感覺很融洽,ES很棒,ES+HBase真的可以媲美SQL了,

好像ES天生跟HBase是一家人,HBase支持動態列,ES也支持動態列,這使得兩者結合在一起很融洽,而ES強大的索引功能正好是HBase所不具備的,如果只是將業務索引欄位存入ES中,體量其實并不大;甚至很多情況下,業務索引欄位60%以上都是Term型別,根本不需要分詞,雖然我們還是支持了分詞,比如多標簽索引就會用到,

很多設計者可能會覺得HBase + Kafka + ES三者結合在一起有點太重了,運維成本很高,有點望而卻步,但轉換角度想一下,我們不就是搞技術的嘛,這下子可以三個成熟產品一起學了!現在看來,識訓還是大于付出的,

至于ES和Solr選擇誰去做二級索引的問題,我覺得差別不大,根據自家公司的現狀做選擇就好了,

最后,還是要為ElasticSearch點個贊!不錯的產品!

五,未來要做的事

  • 多租戶全鏈路打通
  • 策略層SQL支持
  • 系統不斷優化、產品化

掃描二維碼關注博主公眾號

轉載請注明出處!歡迎關注本人微信公眾號【HBase作業筆記】

轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/16332.html

標籤:大數據

上一篇:求助Oracle安裝問題

下一篇:Oracle的監聽程式一直說沒有啟動怎么辦

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • GPU虛擬機創建時間深度優化

    **?桔妹導讀:**GPU虛擬機實體創建速度慢是公有云面臨的普遍問題,由于通常情況下創建虛擬機屬于低頻操作而未引起業界的重視,實際生產中還是存在對GPU實體創建時間有苛刻要求的業務場景。本文將介紹滴滴云在解決該問題時的思路、方法、并展示最終的優化成果。 從公有云服務商那里購買過虛擬主機的資深用戶,一 ......

    uj5u.com 2020-09-10 06:09:13 more
  • 可編程網卡芯片在滴滴云網路的應用實踐

    **?桔妹導讀:**隨著云規模不斷擴大以及業務層面對延遲、帶寬的要求越來越高,采用DPDK 加速網路報文處理的方式在橫向縱向擴展都出現了局限性。可編程芯片成為業界熱點。本文主要講述了可編程網卡芯片在滴滴云網路中的應用實踐,遇到的問題、帶來的收益以及開源社區貢獻。 #1. 資料中心面臨的問題 隨著滴滴 ......

    uj5u.com 2020-09-10 06:10:21 more
  • 滴滴資料通道服務演進之路

    **?桔妹導讀:**滴滴資料通道引擎承載著全公司的資料同步,為下游實時和離線場景提供了必不可少的源資料。隨著任務量的不斷增加,資料通道的整體架構也隨之發生改變。本文介紹了滴滴資料通道的發展歷程,遇到的問題以及今后的規劃。 #1. 背景 資料,對于任何一家互聯網公司來說都是非常重要的資產,公司的大資料 ......

    uj5u.com 2020-09-10 06:11:05 more
  • 滴滴AI Labs斬獲國際機器翻譯大賽中譯英方向世界第三

    **桔妹導讀:**深耕人工智能領域,致力于探索AI讓出行更美好的滴滴AI Labs再次斬獲國際大獎,這次獲獎的專案是什么呢?一起來看看詳細報道吧! 近日,由國際計算語言學協會ACL(The Association for Computational Linguistics)舉辦的世界最具影響力的機器 ......

    uj5u.com 2020-09-10 06:11:29 more
  • MPP (Massively Parallel Processing)大規模并行處理

    1、什么是mpp? MPP (Massively Parallel Processing),即大規模并行處理,在資料庫非共享集群中,每個節點都有獨立的磁盤存盤系統和記憶體系統,業務資料根據資料庫模型和應用特點劃分到各個節點上,每臺資料節點通過專用網路或者商業通用網路互相連接,彼此協同計算,作為整體提供 ......

    uj5u.com 2020-09-10 06:11:41 more
  • 滴滴資料倉庫指標體系建設實踐

    **桔妹導讀:**指標體系是什么?如何使用OSM模型和AARRR模型搭建指標體系?如何統一流程、規范化、工具化管理指標體系?本文會對建設的方法論結合滴滴資料指標體系建設實踐進行解答分析。 #1. 什么是指標體系 ##1.1 指標體系定義 指標體系是將零散單點的具有相互聯系的指標,系統化的組織起來,通 ......

    uj5u.com 2020-09-10 06:12:52 more
  • 單表千萬行資料庫 LIKE 搜索優化手記

    我們經常在資料庫中使用 LIKE 運算子來完成對資料的模糊搜索,LIKE 運算子用于在 WHERE 子句中搜索列中的指定模式。 如果需要查找客戶表中所有姓氏是“張”的資料,可以使用下面的 SQL 陳述句: SELECT * FROM Customer WHERE Name LIKE '張%' 如果需要 ......

    uj5u.com 2020-09-10 06:13:25 more
  • 滴滴Ceph分布式存盤系統優化之鎖優化

    **桔妹導讀:**Ceph是國際知名的開源分布式存盤系統,在工業界和學術界都有著重要的影響。Ceph的架構和演算法設計發表在國際系統領域頂級會議OSDI、SOSP、SC等上。Ceph社區得到Red Hat、SUSE、Intel等大公司的大力支持。Ceph是國際云計算領域應用最廣泛的開源分布式存盤系統, ......

    uj5u.com 2020-09-10 06:14:51 more
  • es~通過ElasticsearchTemplate進行聚合~嵌套聚合

    之前寫過《es~通過ElasticsearchTemplate進行聚合操作》的文章,這一次主要寫一個嵌套的聚合,例如先對sex集合,再對desc聚合,最后再對age求和,共三層嵌套。 Aggregations的部分特性類似于SQL語言中的group by,avg,sum等函式,Aggregation ......

    uj5u.com 2020-09-10 06:14:59 more
  • 爬蟲日志監控 -- Elastc Stack(ELK)部署

    傻瓜式部署,只需替換IP與用戶 導讀: 現ELK四大組件分別為:Elasticsearch(核心)、logstash(處理)、filebeat(采集)、kibana(可視化) 下載均在https://www.elastic.co/cn/downloads/下tar包,各組件版本最好一致,配合fdm會 ......

    uj5u.com 2020-09-10 06:15:05 more
最新发布
  • day02-2-商鋪查詢快取

    功能02-商鋪查詢快取 3.商鋪詳情快取查詢 3.1什么是快取? 快取就是資料交換的緩沖區(稱作Cache),是存盤資料的臨時地方,一般讀寫性能較高。 快取的作用: 降低后端負載 提高讀寫效率,降低回應時間 快取的成本: 資料一致性成本 代碼維護成本 運維成本 3.2需求說明 如下,當我們點擊商店詳 ......

    uj5u.com 2023-04-20 08:33:24 more
  • MySQL中binlog備份腳本分享

    關于MySQL的二進制日志(binlog),我們都知道二進制日志(binlog)非常重要,尤其當你需要point to point災難恢復的時侯,所以我們要對其進行備份。關于二進制日志(binlog)的備份,可以基于flush logs方式先切換binlog,然后拷貝&壓縮到到遠程服務器或本地服務器 ......

    uj5u.com 2023-04-20 08:28:06 more
  • day02-短信登錄

    功能實作02 2.功能01-短信登錄 2.1基于Session實作登錄 2.1.1思路分析 2.1.2代碼實作 2.1.2.1發送短信驗證碼 發送短信驗證碼: 發送驗證碼的介面為:http://127.0.0.1:8080/api/user/code?phone=xxxxx<手機號> 請求方式:PO ......

    uj5u.com 2023-04-20 08:27:27 more
  • 快取與資料庫雙寫一致性幾種策略分析

    本文將對幾種快取與資料庫保證資料一致性的使用方式進行分析。為保證高并發性能,以下分析場景不考慮執行的原子性及加鎖等強一致性要求的場景,僅追求最終一致性。 ......

    uj5u.com 2023-04-20 08:26:48 more
  • sql陳述句優化

    問題查找及措施 問題查找 需要找到具體的代碼,對其進行一對一優化,而非一直把關注點放在服務器和sql平臺 降低簡化每個事務中處理的問題,盡量不要讓一個事務拖太長的時間 例如檔案上傳時,應將檔案上傳這一步放在事務外面 微軟建議 4.啟動sql定時執行計劃 怎么啟動sqlserver代理服務-百度經驗 ......

    uj5u.com 2023-04-20 08:26:35 more
  • 云時代,MySQL到ClickHouse資料同步產品對比推薦

    ClickHouse 在執行分析查詢時的速度優勢很好的彌補了MySQL的不足,但是對于很多開發者和DBA來說,如何將MySQL穩定、高效、簡單的同步到 ClickHouse 卻很困難。本文對比了 NineData、MaterializeMySQL(ClickHouse自帶)、Bifrost 三款產品... ......

    uj5u.com 2023-04-20 08:26:29 more
  • sql陳述句優化

    問題查找及措施 問題查找 需要找到具體的代碼,對其進行一對一優化,而非一直把關注點放在服務器和sql平臺 降低簡化每個事務中處理的問題,盡量不要讓一個事務拖太長的時間 例如檔案上傳時,應將檔案上傳這一步放在事務外面 微軟建議 4.啟動sql定時執行計劃 怎么啟動sqlserver代理服務-百度經驗 ......

    uj5u.com 2023-04-20 08:25:13 more
  • Redis 報”OutOfDirectMemoryError“(堆外記憶體溢位)

    Redis 報錯“OutOfDirectMemoryError(堆外記憶體溢位) ”問題如下: 一、報錯資訊: 使用 Redis 的業務介面 ,產生 OutOfDirectMemoryError(堆外記憶體溢位),如圖: 格式化后的報錯資訊: { "timestamp": "2023-04-17 22: ......

    uj5u.com 2023-04-20 08:24:54 more
  • day02-2-商鋪查詢快取

    功能02-商鋪查詢快取 3.商鋪詳情快取查詢 3.1什么是快取? 快取就是資料交換的緩沖區(稱作Cache),是存盤資料的臨時地方,一般讀寫性能較高。 快取的作用: 降低后端負載 提高讀寫效率,降低回應時間 快取的成本: 資料一致性成本 代碼維護成本 運維成本 3.2需求說明 如下,當我們點擊商店詳 ......

    uj5u.com 2023-04-20 08:24:03 more
  • day02-短信登錄

    功能實作02 2.功能01-短信登錄 2.1基于Session實作登錄 2.1.1思路分析 2.1.2代碼實作 2.1.2.1發送短信驗證碼 發送短信驗證碼: 發送驗證碼的介面為:http://127.0.0.1:8080/api/user/code?phone=xxxxx<手機號> 請求方式:PO ......

    uj5u.com 2023-04-20 08:23:11 more