摘要:T+0查詢是指實時資料查詢,資料查詢統計時將涉及到最新產生的資料,
本文分享自華為云社區《大資料解決方案:解決T+0問題》,作者: 小虛竹 ,
T+0問題
T+0查詢是指實時資料查詢,資料查詢統計時將涉及到最新產生的資料,在資料量不大時,T+0很容易完成,直接基于生產資料庫查詢就可以了,但是,當資料量積累到一定程度時,在生產庫中進行大資料量的查詢會消耗過多的資料庫資源,嚴重時會影響交易業務,這就不能接受了,畢竟生產交易是更關鍵的任務,所以,我們常常會把大量用于查詢分析的歷史資料從生產庫中分離出去,使用單獨的資料庫存盤和查詢,以保證查詢統計不會影響生產業務,這就是常說的冷熱資料分離,
資料分離后就會產生T+0問題,資料拆分到兩個資料庫中,要查詢全量資料就涉及跨庫查詢,而且,我們知道,用于交易的生產庫大多使用能夠保證事務一致性的RDB,而分離出來的冷資料(量大且不再修改)則會更多使用專門的分析型資料庫或資料平臺存盤,即使是關系資料庫也很可能與原來的生產庫型別不同,這就不僅涉及跨庫,還需要跨異構庫(源)查詢,遺憾的是,當前實作跨庫查詢的技術都存在這樣那樣的問題,
資料庫自身的跨庫查詢功能(如Oracle的DBLink、MySQL的FEDERATED、MSSQL的Linked Server等)通常是將遠程資料庫的資料拉到本地,再在本地完成包括過濾在內的大部分計算,整個程序十分低效,不僅如此,這種方式還存在資料傳輸不穩定、不支持大物件操作、可擴展性低等很多不足,
除了資料庫自身的跨庫查詢能力,使用高級語言硬編碼也可以完成跨庫查詢,畢竟沒有什么問題不是硬編碼解決不了的,這種方式雖然靈活,但使用難度卻很大,尤其對于當前大部分應用的開發語言Java來說,缺少足夠的結構化資料計算類別庫使得完成跨庫查詢后的計算很難完成,通常只能做簡單的串列式查詢,而涉及到統計匯總類的運算就會例外麻煩,
事實上,要解決分庫后的T+0查詢問題也并非難事,只要有具備這樣一些能力的計算引擎就可以實作:能夠對接多種資料源;擁有不依賴資料庫的完善計算能力以完成多庫資料歸集后的資料計算作業;還可以利用資料庫(源)的能力充分發揮資料庫的效能;提供簡單的資料計算介面;性能相對理想等,
引入SPL
可以借助開源SPL可以實作這些目標,SPL是一款開源資料計算引擎,提供了大量結構化資料計算函式并擁有完備計算能力,支持多資料源混合計算,可以同時連接存盤熱資料的業務庫和存盤冷資料的歷史庫完成全量資料T+0查詢,
由于具備獨立且完善的計算能力,SPL可以分別從不同的資料庫取數計算,因此可以很好適應異構資料庫的情況,還可以根據資料庫的資源狀況決定計算是在資料庫還是SPL中實施,非常靈活,在計算實作上,SPL的敏捷語法與程序計算可以大大簡化T+0查詢中的復雜計算,提升開發效率,SPL解釋執行支持熱部署,更進一步,依托SPL的強計算能力還可以完成冷熱資料分離時的ETL任務,
SPL還提供了自有的高性能二進制檔案存盤,對性能要求較高時可以將歷史冷資料使用檔案存盤,再借助SPL的高性能演算法與并行計算來提升查詢效率,此外,SPL封裝了標準應用介面(JDBC/ODBC/RESTful)供應用集成呼叫,也可以將SPL嵌入應用中使用,這樣應用就輕松具備了T+0查詢與復雜資料處理能力,將計算和存盤分離也更符合當代應用架構的需要,
冷熱混合計算
對于常見的冷熱分庫T+0查詢場景,SPL實作很簡單,這里看一個例子,
本例中,Oracle作為生產庫存盤當期熱資料,MySQL存盤歷史冷資料,前端傳入一句標準SQL(A2),再借助SPL的轉換功能將標準SQL轉換成對應資料庫的語法(B3)并發給資料庫查詢(B4),最后歸并結果進行最后的匯總運算(A5),這里使用了多執行緒并行方式(A3)同時執行兩個SQL,效率更高,
在這里,SPL不僅完成了兩個資料庫的跨庫查詢,還提供了SQL轉換方法,更利于前端應用使用,同時擁有合并兩個資料庫計算結果后的繼續計算能力,本例是分組匯總,SPL還有更豐富的結構化資料物件及其上的豐富運算,除了分組匯總、回圈分支、排序過濾、集合運算等基礎計算外,位置計算、排序排名、不規則分組也不在話下,
除了RDB,對于有些場景涉及的NoSQL、Hadoop等資料源也能支持,SPL具備多源混算能力,無論基于何種資料源都可以進行混合查詢實作T+0,比如MongoDB與MySQL混合查詢:
SPL的計算能力還能用于ETL,將生產資料轉移到歷史庫中,還經常伴隨一些轉換計算,這些都可以使用SPL來完成,比如出于某些原因,要將生產資料某些編碼欄位通過某個對照表轉換成另一種編碼(遵守一致性的編碼規則、整理資料型別獲得更好性能等),而對照表通常并不會存在生產庫中,而不能直接在生產庫中計算好,這就涉及多資料源計算了,
高性能
歷史冷資料量可能很大,使用RDB存盤容易受到資源容量等因素限制,而且資料讀取效率很差,相比之下,檔案存盤具備很多優勢,不僅讀取效率更高,還可以有效利用檔案壓縮、并行等機制提速,同時也不會像資料庫容易受到容量的限制,不過,開放的文本格式使用效率不高(無壓縮、決議資料型別慢等),一般會使用二進制格式檔案,另外,檔案存盤的最大問題是沒有計算能力,不像資料庫使用SQL可以很方便完成資料處理,通過硬編碼處理的難度很大,
這些問題都可以通過SPL來解決,SPL提供了兩種高性能二進制資料存盤格式集檔案和組表,再借助SPL的獨立計算能力可以直接基于檔案和資料庫混合計算實作高效T+0查詢,比如前面的例子,可以使用SPL檔案存盤歷史冷資料與生產庫熱資料混合查詢,
將歷史數據存盤在檔案后與生產庫混合查詢,歷史資料使用游標可以支持大資料場景,A4針對檔案游標進行分組匯總,A5歸并資料并匯總分組結果,這里使用了SPL提供的二進制集檔案(btx),相對文本更加高效,集檔案采用了壓縮技術(占用空間更小讀取更快),存盤了資料型別(無需決議資料型別讀取更快),支持可追加資料的倍增分段機制,利用分段策略很容易實作并行計算,保證計算性能,
SPL還有另外一種支持列存的高效存盤形式組表,在參與計算的列數(欄位)較少時會有巨大優勢,組表上還實作了minmax索引,也支持倍增分段,這樣不僅能享受到列存的優勢,也更容易并行提升計算性能,
SPL還支持各種高性能演算法,比如常見的TopN運算,在SPL中TopN被理解為聚合運算,這樣可以將高復雜度的排序轉換成低復雜度的聚合運算,而且很還能擴展應用范圍,
這里的陳述句中沒有排序字樣,也不會產生大排序的動作,在全集還是分組中計算TopN的語法基本一致,而且都會有較高的性能,類似的演算法在SPL中還有很多,
SPL也很容易實施并行計算,發揮多CPU的優勢,SPL有很多計算函式都提供并行機制,如檔案讀取、過濾、排序只要增加一個@m選項就可以自動實施并行計算,簡單方便,
易集成
SPL封裝了標準JDBC和ODBC介面供應用呼叫,特別對于Java應用可以將SPL嵌入應用內使用,T+0查詢能力在應用端實作,不再依賴資料源,這樣可以充分解耦應用與資料源,獲得很好的移植性和可擴展性,
JDBC呼叫SPL 代碼示例:
Class.forName("com.esproc.jdbc.InternalDriver"); Connection conn =DriverManager.getConnection("jdbc:esproc:local://"); Statement st = connection.(); CallableStatement st = conn.prepareCall("{call splscript(?, ?)}"); st.setObject(1, 3000); st.setObject(2, 5000); ResultSet result=st.execute();
SPL是解釋執行的,天然支持熱切換,基于SPL的資料計算邏輯撰寫、修改后不需要重啟,實時生效,使開發運維更加便捷,
相對其它T+0實作技術,SPL借助自身獨立的強計算與跨資料源計算能力可以更方便完成T+0查詢,同時提供的高性能存盤和高性能演算法可以充分保障查詢效率,良好的集成性使得應用端可以輕松具備這些能力,是名副其實的T+0查詢利器,
參考資料
- SPL下載
- SPL源代碼
點擊關注,第一時間了解華為云新鮮技術~
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/520722.html
標籤:其他
