主頁 > 資料庫 > CSR格式如何更新? GES圖計算引擎HyG揭秘之資料更新

CSR格式如何更新? GES圖計算引擎HyG揭秘之資料更新

2023-06-21 08:52:51 資料庫

摘要:HyG圖計算引擎采用CSR格式來存盤圖的拓撲資訊,CSR格式可以將稀疏矩陣的存盤空間壓縮,進而大大降低圖的存盤開銷,同時具備訪問效率高、格式易轉化等優點,

本文分享自華為云社區《CSR格式如何更新? GES圖計算引擎HyG揭秘之資料更新》,作者: π ,

HyG圖計算引擎采用CSR格式來存盤圖的拓撲資訊,CSR格式可以將稀疏矩陣的存盤空間壓縮,進而大大降低圖的存盤開銷,同時具備訪問效率高、格式易轉化等優點,利用CSR + 列存(parquet格式)的組合,HyG獲得了很高的圖訪問性能,但是,對于資料需要增量更新的場景,CSR的更新非常困難,可能會導致大量的資料復制和移動,進而影響系統性能,HyG對傳統CSR更新進行了一系列優化,實作了高效的資料更新,

什么是CSR格式?

CSR格式是一種常用的稀疏矩陣存盤格式,它將稀疏矩陣以三個陣列的形式存盤,具體來說,CSR格式使用 values、column indices和row offsets三個陣列來表示稀疏矩陣,


定義NNZ(Num-non-zero)為矩陣M中非0元素的個數,

第一個陣列為values陣列,其中,values陣列的長度為NNZ,分別從左到右從上到下的非零元素的值,

第二個陣列為column陣列,其中,column陣列的長度為NNZ,其對應于values陣列中的元素的column_index(例如元素8排列在所在行的第3個位置,因此其column index為2),

第三個陣列為row offsets,其中row offsets的陣列大小為m+1,其前m個元素分別代表這每一行中第一個非零元素在Values陣列的下標,(例如元素2是第二行的第二個元素,其在values陣列中的下標為2.),

CSC和CSR類似,只不過和CSR行列互換,values陣列里是按列存的數值,row offsets變成了col offsets,column陣列變成了row陣列,

CSR格式由于其緊湊的存盤方式和高效的計算方式,已經成為了處理稀疏矩陣的標準格式之一,具體來說,CSR格式可以利用連續的記憶體塊來存盤非零元素,這使得計算機在處理稀疏矩陣時可以跳過大量的零元素,從而提高了計算效率,此外,CSR格式所需要的存盤空間相對于其他格式,如COO格式(Coordinate)等,也更為緊湊,這在處理大型稀疏矩陣時非常有利,

如何更新CSR格式資料?

傳統方案:

更新圖資料需要對三個陣列進行操作:values、columns和row offset,

更新

要更新矩陣中某個位置(i,j)的值,需要找到該位置在CSR格式中對應的行(第i行)在values和columns陣列中的起始和結束索引,具體而言,該行的非零元素在values陣列中的起始位置是row offset [i],結束位置是row offset [i+1]-1,然后,在columns陣列中找到對應的列(第j列)的索引位置,

接下來,可以直接更新values陣列中對應位置的值,即values[row offset[i]+k],其中k是columns陣列中第j列的索引位置,

插入

如果要插入一個新的非零元素,可以按照以下步驟進行:

1、找到要插入的元素在CSR格式中對應的行(第i行)在values和columns陣列中的起始和結束索引,方法同上,

2、在columns陣列中找到新元素應該插入的位置,即找到插入元素后columns陣列中第j列的索引位置,

3、將新元素的值插入到values陣列中正確的位置,并將columns陣列中對應位置以及后面的元素向后移動一個位置,

4、更新row offset陣列中第i行及其后面所有行的元素起始位置,因為在第i行插入了一個新的非零元素,

洗掉

如果要洗掉一個非零元素,可以按照以下步驟進行:

1、找到要洗掉的元素在CSR格式中對應的行(第i行)在values和columns陣列中的起始和結束索引,方法同上,

2、在columns陣列中找到要洗掉的元素的位置,

3、從values和columns陣列中洗掉該元素,并將后面的元素向前移動一個位置,

4、更新row offset陣列中第i行及其后面所有行的元素起始位置,因為在第i行洗掉了一個非零元素,

需要注意的是,更新CSR格式中的元素可能會導致陣列長度的變化,因此需要動態分配和釋放記憶體空間,此外,在進行插入和洗掉操作時,可能需要對row offset陣列中的元素進行更新,這可能會影響CSR格式的性能,

總之,CSR格式的更新操作相對復雜,需要對三個陣列進行操作,并需要考慮記憶體分配和陣列長度的變化等問題,這十分不利于實時分批式的增量更新,

HyG資料更新策略

  • 每次更新都會生成一個子圖(delta_graph),這個子圖是CSR格式,描述了增量資訊,
  • 引入deleted_biset陣列,記錄被洗掉的點、邊資訊,
  • 按順序加載 MergedPG = pg + [delta_graph]
  • 對各點、邊按照所屬的pg/ delta_graph進行本地訪問和增、刪,

因為HyG考慮了分布式切分圖的場景,我們將場景簡化,接下來描述一下資料更新的流程,

圖原始資料如下圖所示,圖中包含4個點,4條邊,4條邊上的值分別為1、7、2、8,

圖對應的CSR格式如下圖所示,這個是原始的拓撲資料,

我們對資料進行更新,基于原始圖新增了邊0(src)->3(dst),邊的值為3,洗掉了邊1(src)->2(dst),邊的值為8,


新增了1條邊,邊的src是0,dst是3,因此CSR的row offset為[1 1 1 1],column為[3],value為[3],進而得到了右側的delta graph,

洗掉了1條邊,這條邊是屬于pg(原始圖),所以,我們會對pg的deleted_bitset置位,因為洗掉是column陣列的最后一個,因此,我們會將最后一個bit置為1,表示這個邊已被洗掉,

到此,我們就完成了一次增、刪操作,生成了一個新的delta graph,這個delta graph跟歷史資料沒有任何關系,它只表示了本次增量的資料,因此,對于超大規模的圖,更新資料不再需要大量的資料拷貝和移動,只需要生成一個很小的delta graph就可以了,

圖訪問

經過增量更新,全量圖的資訊就會被分解為一個原始圖和一個增量圖,HyG設計了一種同時讀取到兩個圖資訊的訪問迭代器(以下簡稱“二級迭代器”),這種迭代器會將這多個子圖視為一個全量圖訪問,可以在不同的子圖間游走,

HyG增量圖迭代性能優化

HyG增量圖會產生多個快照,每個快照是一個子圖,對應著一次commit,演算法讀取增量圖需要依賴HyG的二級迭代器,迭代器會在不同的快照間游走,校驗點、邊是否已被洗掉,最侄訓傳給演算法結果,因此,迭代器需要維護很多資訊,遠遠大于pg(原始圖)的輕量級迭代器,進而使增量圖迭代的性能很低,快照數量越多性能下降越劇烈,

優化方案

HyG引入基于頁的快照索引技術來緩解由于存在大量快照導致的性能下降問題,

為每個快斬訓分虛擬頁,比如頁的大小是4K,那么一個頁對應著4K個點以及這4k點對應的邊,

索引表記錄了每個頁最近被更新的快照,因此,如果這個頁沒有被更新,那么利用索引表可以直接跳過對應的快照,

索引表采用copy on write的方式更新,每生成一個新快照,會把上一個快照的全部索引資訊copy一份,然后把修改資訊更新到對應的索引上,得到最新快照的索引表,

同時,對于二級迭代器的構造,我們也進行了優化,盡量減少資料成員的數量,當迭代器在不同快照間切換時,去更新該快照的背景關系資訊,而不會維護所有快照的資訊,

利用快照索引技術,我們可以快速的定位到點、邊對應的最新修改的快照,進而可以跳過很多無效的訪問,但是,隨著快照數量的增多,圖遍歷的性能還是會不斷下降,被洗掉的點、邊不但浪費了大量的存盤空間,還會增加無效的訪問延時,因此,設計一套有效的自動化合并方案,當快照數量過多或者洗掉點、邊過多時,觸發合并,提升系統性能,如果大家感興趣,我們后面會接著介紹HyG是如何實作快照合并的,

 

點擊關注,第一時間了解華為云新鮮技術~

轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/555728.html

標籤:其他

上一篇:Linux安裝MongoDB 4.0.3

下一篇:返回列表

標籤雲
其他(161420) Python(38243) JavaScript(25511) Java(18250) C(15238) 區塊鏈(8271) C#(7972) AI(7469) 爪哇(7425) MySQL(7260) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5875) 数组(5741) R(5409) Linux(5347) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4606) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2436) ASP.NET(2404) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) .NET技术(1984) HtmlCss(1970) 功能(1967) Web開發(1951) C++(1942) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1881) .NETCore(1863) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • GPU虛擬機創建時間深度優化

    **?桔妹導讀:**GPU虛擬機實體創建速度慢是公有云面臨的普遍問題,由于通常情況下創建虛擬機屬于低頻操作而未引起業界的重視,實際生產中還是存在對GPU實體創建時間有苛刻要求的業務場景。本文將介紹滴滴云在解決該問題時的思路、方法、并展示最終的優化成果。 從公有云服務商那里購買過虛擬主機的資深用戶,一 ......

    uj5u.com 2020-09-10 06:09:13 more
  • 可編程網卡芯片在滴滴云網路的應用實踐

    **?桔妹導讀:**隨著云規模不斷擴大以及業務層面對延遲、帶寬的要求越來越高,采用DPDK 加速網路報文處理的方式在橫向縱向擴展都出現了局限性。可編程芯片成為業界熱點。本文主要講述了可編程網卡芯片在滴滴云網路中的應用實踐,遇到的問題、帶來的收益以及開源社區貢獻。 #1. 資料中心面臨的問題 隨著滴滴 ......

    uj5u.com 2020-09-10 06:10:21 more
  • 滴滴資料通道服務演進之路

    **?桔妹導讀:**滴滴資料通道引擎承載著全公司的資料同步,為下游實時和離線場景提供了必不可少的源資料。隨著任務量的不斷增加,資料通道的整體架構也隨之發生改變。本文介紹了滴滴資料通道的發展歷程,遇到的問題以及今后的規劃。 #1. 背景 資料,對于任何一家互聯網公司來說都是非常重要的資產,公司的大資料 ......

    uj5u.com 2020-09-10 06:11:05 more
  • 滴滴AI Labs斬獲國際機器翻譯大賽中譯英方向世界第三

    **桔妹導讀:**深耕人工智能領域,致力于探索AI讓出行更美好的滴滴AI Labs再次斬獲國際大獎,這次獲獎的專案是什么呢?一起來看看詳細報道吧! 近日,由國際計算語言學協會ACL(The Association for Computational Linguistics)舉辦的世界最具影響力的機器 ......

    uj5u.com 2020-09-10 06:11:29 more
  • MPP (Massively Parallel Processing)大規模并行處理

    1、什么是mpp? MPP (Massively Parallel Processing),即大規模并行處理,在資料庫非共享集群中,每個節點都有獨立的磁盤存盤系統和記憶體系統,業務資料根據資料庫模型和應用特點劃分到各個節點上,每臺資料節點通過專用網路或者商業通用網路互相連接,彼此協同計算,作為整體提供 ......

    uj5u.com 2020-09-10 06:11:41 more
  • 滴滴資料倉庫指標體系建設實踐

    **桔妹導讀:**指標體系是什么?如何使用OSM模型和AARRR模型搭建指標體系?如何統一流程、規范化、工具化管理指標體系?本文會對建設的方法論結合滴滴資料指標體系建設實踐進行解答分析。 #1. 什么是指標體系 ##1.1 指標體系定義 指標體系是將零散單點的具有相互聯系的指標,系統化的組織起來,通 ......

    uj5u.com 2020-09-10 06:12:52 more
  • 單表千萬行資料庫 LIKE 搜索優化手記

    我們經常在資料庫中使用 LIKE 運算子來完成對資料的模糊搜索,LIKE 運算子用于在 WHERE 子句中搜索列中的指定模式。 如果需要查找客戶表中所有姓氏是“張”的資料,可以使用下面的 SQL 陳述句: SELECT * FROM Customer WHERE Name LIKE '張%' 如果需要 ......

    uj5u.com 2020-09-10 06:13:25 more
  • 滴滴Ceph分布式存盤系統優化之鎖優化

    **桔妹導讀:**Ceph是國際知名的開源分布式存盤系統,在工業界和學術界都有著重要的影響。Ceph的架構和演算法設計發表在國際系統領域頂級會議OSDI、SOSP、SC等上。Ceph社區得到Red Hat、SUSE、Intel等大公司的大力支持。Ceph是國際云計算領域應用最廣泛的開源分布式存盤系統, ......

    uj5u.com 2020-09-10 06:14:51 more
  • es~通過ElasticsearchTemplate進行聚合~嵌套聚合

    之前寫過《es~通過ElasticsearchTemplate進行聚合操作》的文章,這一次主要寫一個嵌套的聚合,例如先對sex集合,再對desc聚合,最后再對age求和,共三層嵌套。 Aggregations的部分特性類似于SQL語言中的group by,avg,sum等函式,Aggregation ......

    uj5u.com 2020-09-10 06:14:59 more
  • 爬蟲日志監控 -- Elastc Stack(ELK)部署

    傻瓜式部署,只需替換IP與用戶 導讀: 現ELK四大組件分別為:Elasticsearch(核心)、logstash(處理)、filebeat(采集)、kibana(可視化) 下載均在https://www.elastic.co/cn/downloads/下tar包,各組件版本最好一致,配合fdm會 ......

    uj5u.com 2020-09-10 06:15:05 more
最新发布
  • CSR格式如何更新? GES圖計算引擎HyG揭秘之資料更新

    摘要:HyG圖計算引擎采用CSR格式來存盤圖的拓撲資訊,CSR格式可以將稀疏矩陣的存盤空間壓縮,進而大大降低圖的存盤開銷,同時具備訪問效率高、格式易轉化等優點。 本文分享自華為云社區《CSR格式如何更新? GES圖計算引擎HyG揭秘之資料更新》,作者: π 。 HyG圖計算引擎采用CSR格式來存盤圖 ......

    uj5u.com 2023-06-21 08:52:51 more
  • Linux安裝MongoDB 4.0.3

    Linux安裝MongoDB 4.0.3 1.準備 CentOS下安裝MongoDB 官網提供windows、Linux、OSX系統環境下的安裝包,這里主要是記錄一下在Linux下的安裝;首先到官網下載安裝包;文中安裝的是4.0.3版本的。 官網地址:https://www.mongodb.com/ ......

    uj5u.com 2023-06-21 08:52:38 more
  • 華為云GaussDB為MetaERP“成本核算”產品“保駕護航”

    摘要:華為宣布實作了自主創新的MetaERP研發,并且完成了對舊ERP系統的全面替換,這其中,就采用了華為云GaussDB資料庫特有的全密態技術,對ERP系統中的絕密資料進行加密保護,從而保障了資料的安全。 ERP系統在幫助企業優化業務流程、實作數字化管理方面有重要作用,可以說企業所有的業務流轉都需 ......

    uj5u.com 2023-06-21 08:51:32 more
  • InnoDB 記憶體結構之更改緩沖區

    更改緩沖區(Change Buffer)是一種特殊的資料結構,用于快取不在緩沖池中的二級索引(secondary index)頁的更改。可能來自于 INSERT、UPDATE 或 DELETE 操作(資料操作語言,DML)的緩沖更改,會在后續通過其他讀操作將這些頁加載到緩沖池時被合并。 ......

    uj5u.com 2023-06-21 08:50:53 more
  • CSR格式如何更新? GES圖計算引擎HyG揭秘之資料更新

    摘要:HyG圖計算引擎采用CSR格式來存盤圖的拓撲資訊,CSR格式可以將稀疏矩陣的存盤空間壓縮,進而大大降低圖的存盤開銷,同時具備訪問效率高、格式易轉化等優點。 本文分享自華為云社區《CSR格式如何更新? GES圖計算引擎HyG揭秘之資料更新》,作者: π 。 HyG圖計算引擎采用CSR格式來存盤圖 ......

    uj5u.com 2023-06-21 08:50:31 more
  • [20230616]One Deadlock of 'row cache lock' and '

    [20230616]One Deadlock of 'row cache lock' and 'library cache lock'.txt--//鏈接http://ksun-oracle.blogspot.com/2023/06/one-deadlock-of-row-cache-lock-an ......

    uj5u.com 2023-06-20 09:32:04 more
  • MVCC并發版本控制之重點ReadView

    MVCC并發版本控制 本文大部分來自《MySQL是怎樣運行的》,這里只是簡單總結,用于各位回憶和復習。 版本鏈 對于使用 InnoDB 存盤引擎的表來說,它的聚簇索引記錄中都包含兩個必要的隱藏列(不知道的快去看《MySQL是怎樣運行的》) trx_id :每次一個事務對某條聚簇索引記錄進行改動時,都 ......

    uj5u.com 2023-06-20 09:31:55 more
  • Linux安裝MongoDB 4.0.3

    Linux安裝MongoDB 4.0.3 1.準備 CentOS下安裝MongoDB 官網提供windows、Linux、OSX系統環境下的安裝包,這里主要是記錄一下在Linux下的安裝。首先到官網下載安裝包。文中安裝的是4.0.3版本的。 官網地址:https://www.mongodb.com/ ......

    uj5u.com 2023-06-20 09:31:43 more
  • 華為云黃瑾:做強堅實資料底座,GaussDB與產業攜手共進

    近日,華為全球智慧金融峰會2023在上海順利舉行,華為云副總裁、戰略與產業發展部總裁黃瑾發表了《做強堅實資料底座,GaussDB與產業攜手共進》的主題演講。 以下為演講實錄: 尊敬的各位來賓,大家下午好!非常高興和大家探討關于做堅實資料底座,GaussDB與產業攜手共進的一些思考。 中國資料庫市場發 ......

    uj5u.com 2023-06-20 09:31:21 more
  • 達夢資料庫: SQL查詢報錯《不是 GROUP BY 運算式解決方法》

    #報錯資訊: ``` ****: 第4 行附近出現錯誤: 不是 GROUP BY 運算式 ``` #修改辦法: ######達夢可以配置兼容引數,COMPATIBLE_MODE=4,靜態引數,需要重啟資料庫后生效! ``` sp_set_para_value(2,'COMPATIBLE_MODE', ......

    uj5u.com 2023-06-20 09:31:14 more