大規模資料如何實作資料的高效追溯？-有解無憂

摘要： “一分鐘，我要這個人的全部資訊”，霸道總裁拍了拍你，并提出這個要求，

本文分享自華為云社區《大規模資料如何實作資料的高效追溯》，作者： DevAI，

“一分鐘，我要這個人的全部資訊”，霸道總裁拍了拍你，并提出這個要求，秘書開始發力，找到了：姓名、年齡、聯系方式、愛好，這些資訊，不太夠？那就再加上親朋好友資訊，近期活動資訊，更完整展現這個人，雖然是個段子，但也給與我們一些啟示：物件本身的資訊可能不夠“全”，周邊關聯的資料也是物件資訊的重要組成，這些關聯資料對在進行資料分析和挖掘時十分有用，

現實生活中關聯關系十分普遍，比如人的社交、商品生產和消費行為之間都是關聯關系，資料分析時，為了更好的利用關聯關系，常使用圖作為資料結構，使用圖結構保存資料的資料庫被稱為圖資料庫，傳統的關系型資料庫，以表格視角對資料進行呈現，可以方便的對資料進行查詢管理，而圖資料庫更關注節點和周邊節點的聯系，是一種網狀結構，適用于追溯分析、社交網路分析、異構資訊挖掘等等應用，華為云提供的圖資料庫服務就是GES（Graph Engine Service）[1]，

基于圖資料庫可以做很多有趣的應用，資料追溯就是一個很常見的應用，資料追溯，就是把各環節產生的資料進行關聯與溯源，疫情中，查看商品的流通程序，檢查商品是否有可能有接觸傳染源，測驗活動中，通過構建測驗程序網路，分析測驗活動的完備性，用于進行質量評估，這些都是追溯的典型使用場景，若以傳統關系型資料庫構建資料追溯，需要獨立構造和維護多個關系表，并實作多對多的關系網路，不易于理解復雜的業務邏輯，與此同時，也會伴隨著追溯查詢實作復雜和查詢緩慢的問題，

圖1 關系型資料庫和圖資料庫對比

用一個例子簡單說明圖資料庫在資料分析領域的優勢，圖1是一個簡單的選課系統，記錄了學生選課以及相應的課程資訊，如右圖所示，我們根據圖資料庫的表達方式把這些資訊轉化為一張圖，可以看出，圖可以更加直觀地表達選課和班級等關系，清楚地呈現物體之間的關系，更方便進行關聯分析，比如，根據圖我們可以很容易找到和小布一起上數學課的同學，也可以快速找到選課興趣相同的同學，通過圖資料庫可以很方便查詢到周邊節點資訊，非常適用于追溯實作，那如何基于圖資料庫如何實作追溯服務？接下來我們將以華為云GES為例，分析基于GES圖資料庫追溯服務的實作和優化，

什么是圖

在圖資料庫中，圖由以下部分組成：

點：圖中的物體物件，在圖中表現為一個節點，例如，社會的人，流通的商品等都可以抽象為圖中的一個節點，
邊：圖中節點與節點之間的關系，如人與人的社會關系，商品的購買行為等，
屬性：用于描述圖中節點或者邊的屬性，比如編號、名稱等，聚類和分類分析中，權重是常常作為關系屬性，也就是邊的屬性，

圖2 有向圖與無向圖

根據邊是否有方向，可以把圖分為有向圖和無向圖，對于有向圖來說，邊的起點和終點是確定的，圖2中，城市是一個節點，城市間的距離和城市之間交通方式為邊，城市交通就是一個有向圖，不同方向交通方式用不同的邊表示，而城市間距離是無向圖，因為距離和方向無關，GES使用時，需要將點和邊處理成不同的物件，點邊都需要定義需要的屬性，點主要就是包含物體的資訊，而邊需要指定起點與終點，

定義GES圖

GES建立圖的步驟可以參考官方檔案[2]，主要就是對節點和邊進行定義，將資料處理為點和邊檔案，最后匯入GES中，可通過界面或API匯入，處理無向圖時，即不區分邊的起點和終點，通常也會設定一個默認方向，即指定邊的起點和終點，這是為了處理和匯入資料方便，在實際查詢中可以忽略這種方向設定，

在GES構建圖的程序中，定義點和邊以及相關屬性的檔案被稱為元資料，點和邊的型別被稱為label，每個label可具有多個屬性，如上文提到的名稱、權重等，都可以作為點或邊的屬性，在GES中，label一旦定義并創建成功將不被允許修改，如果必須要修改label定義，就需要格式化圖并重新創建匯入元資料檔案到圖中，

節點通常是由現實中的物體抽象而來，GES節點屬性常用的資料結構包含了float、int、double、long、char、char array、date、bool、enum和string等，通常來說節點中，字串型別的屬性較多，非字串屬性可以根據資料型別進行選擇，字串型別有兩個選擇：string和char array，char array有資料長度限制，通常為256，而string型別沒有長度限制，但是在GES中使用char array更有優勢，這是因為char array資料存放在記憶體中，string型別資料存放在硬碟中，因此char array查詢效率更高，這也是GES元資料定義需要注意的地方，在我們專案的場景中，節點的名稱和編號都是常用的查詢條件，綜合考慮屬性特征，如節點名稱較長而節點編號較短，最終名稱使用了string型別，而編號選擇了char array型別，

GES查詢優化

定義好節點資訊后，可以在圖中進行查詢，GES使用的是Gremlin[3]進行查詢，Gremlin是一個開源的流式查詢語言，查詢實作靈活，不同圖資料庫對查詢陳述句的分解以及優化處理都不相同，因此，不同的寫法可能查詢效率可能不同，接下來我們就一種追溯查詢場景進行分析，

圖3 多分支查詢場景分析

如圖3所示，字母代表label，也就是一種節點型別，可以看到該場景具有較多查詢分支，按照圖中的節點要求，Gremlin查詢陳述句直接實作如下：

g.V(id).hasLabel('A').ouE().otherV().hasLabel('B').ouE().otherV().hasLabel('C').as('c').outE().otherV().hasLabel('F').outE().otherV().hasLabel('H').select('c').outE().otherV().hasLabel('D').as('d').outE().otherV().hasLabel('G').select('d').outE().otherV().hasLabel('H')

基于當前Gremlin，GES Gremlin server會將查詢分解為多個查詢原子操作，并由GES engine·執行，對于這種多跳的復雜查詢，會決議為較多的原子操作并頻繁互動，這會導致的查詢效率低下，對于這種場景，考慮使用optional陳述句進行查詢，效率會得到提升，查詢陳述句如下：

g.V(id).hasLabel('A').ouE().otherV().hasLabel('B').ouE().otherV().hasLabel('C').as('c').optional(outE().otherV().hasLabel('F').outE().otherV().hasLabel('H')).optional(select('c').outE().otherV().hasLabel('D').as('d').optional(outE().otherV().hasLabel('G')).optional(select('d').outE().otherV().hasLabel('H')))

optional在一定程度上可以降低分支的查詢范圍，從而提升查詢效率，在專案實際使用中，使用optional可以提升查詢性能1倍左右，但是optional不是所有場景都適用，Gremlin實作需要根據查詢場景、資料規模和資料特點進行優化處理，例如圖中節點的稀疏程度和分支的數量都是可以考慮優化的點，

在對GES查詢優化時，即使對Gremlin陳述句進行了優化，也有可能達不到期望的查詢性能，這是因為使用Gremlin時，處理查詢程序中Gremlin server決議后的原子操作可能會和GES engine頻繁互動，反而會降低查詢性能，而且針對Gremlin查詢優化處理范圍也有限，雖然Gremlin是圖資料庫通用的查詢腳本定義方式，但是各個廠家對于Gremlin腳本優化處理不同，因此更推薦使用GES原生API，原生API針對固定場景做了更多的優化，并且減少了Gremlin決議處理程序，因此性能更優，但同時也引入了通用性和效率之間的平衡問題，畢竟API沒有通用的定義實作，

下面我們將介紹幾種常見的追溯查詢場景，這些場景都可以通過Gremlin查詢實作，但是如果通過使用GES系統API，可以獲取更好的查詢性能，

場景(1) 追溯某個節點前（后）n層節點

該查詢較為常見，主要用于查詢某個節點的父子節點，對于圖1 的場景可以找到班級的所有同學，該場景Gremlin實作如下：

g.V(id).repeat(out()).times(n).emit().path()

這種場景下，推薦使用GES演算法檔案中的k-hop演算法解決該問題，需要注意，這個演算法介面只會回傳滿足查詢條件的子圖中的所有點，但沒有節點詳情和邊資訊，如果需要節點詳情可以采用batch-query批量進行節點詳情查詢，如果需要邊資訊，推薦場景(2) 使用的API，

場景(2) 按條件追溯某個節點之前（后）n層節點，節點篩選條件相同

g.V(id).repeat(outE().otherV().hasLabel('A')).times(n).emit().path()

這種場景下，推薦使用repeat-query方法，該方法可以快速實作某個起點前后n跳查詢，并且可以限定節點查詢條件，并且所有點的查詢過濾條件相同，在查詢中，如果不同的點需要使用不同的查詢條件進行過濾，可以先不指定點查詢條件，待回傳查詢結果后再進行過濾，不指定點的查詢場景可以退化為場景(1)，并且該API可以同時回傳節點和邊的詳情，

場景(3) 按條件追溯某個節點之前（后）n層節點，不同節點篩選條件不同

圖3的例子就是一個這樣的場景，每層的查詢label不同，這種情況下，推薦使用filtered-query進行查詢，該方法需要詳細指定每個節點的過濾屬性，相當于將每個查詢條件都在引數中一一指定，實作完全滿足條件的查詢，專案中，相對于Gremlin 查詢，filtered-query的查詢性能可以提升10倍左右，

上述三個場景中repeat-query和k-hop具有更好的泛化能力，可以隨意指定查詢跳數n，需要設定的引數簡單，而filtered-query需要詳細指定查詢中每層節點的屬性，引數較為復雜，具體使用中可以根據業務需求進行選擇，

GES還提供了很多演算法，如Node2vec, subgraph2vec，GCN演算法，本文只介紹了基于GES進行節點快速查詢并提供追溯服務，后續也會考慮如何基于建立好的圖，進行一些資料節點融合，也可以進行相似度分析、質量評估和流程推薦等，更好地挖掘資料的價值，

文章來自PaaS技術創新Lab，PaaS技術創新Lab隸屬于華為云，致力于綜合利用軟體分析、資料挖掘、機器學習等技術，為軟體研發人員提供下一代智能研發工具服務的核心引擎和智慧大腦，我們將聚焦軟體工程領域硬核能力，不斷構筑研發利器，持續交付高價值商業特性！加入我們，一起開創研發新“境界”！

PaaS技術創新Lab主頁鏈接：https://www.huaweicloud.com/lab/paas/home.html

【參考資料】

華為云GES產品介紹: https://support.huaweicloud.com/productdesc-ges/ges_04_0001.html
華為云GES用戶指南: https://support.huaweicloud.com/usermanual-ges/ges_01_0009.html
Gremlin官方檔案：https://tinkerpop.apache.org/docs/3.3.11/

點擊關注，第一時間了解華為云新鮮技術~

轉載請註明出處，本文鏈接：https://www.uj5u.com/shujuku/504531.html

標籤：其它

上一篇：這一次，我們把AI自治資料庫帶到了世界人工智能大會上

下一篇：深度干貨！一篇Paper帶您讀懂HTAP | StoneDB學術分享會第①期