開發者李雷小朋友維護了一個自己的關系鏈圖資料庫,他怎么能從圖資料庫中查詢出與他互相關注且年齡大于30的朋友呢?

這里先介紹幾種圖原生查詢語言寫法:
1.gremlin
g.V("李雷").outE('friend').has('age',gt(30)).otherV().where(out('friend').
(hasId('李雷'))).limit(100)
2.cypher
match (a)-[r1:friend]->(b)-[r2:friend]->(c) where a.mid='李雷' and r1.age>30 and a=c return id(b) limit 100
以上兩種寫法等價,只是使用的圖查詢語言有區別,前者使用gremlin(Apache軟體基金會下TinkerPop開發的graph traversal language)撰寫, 后者為Neo4j于2015年發布的圖查詢語言開源版本openCypher,
查詢方式一覽
GES支持多種查詢方式,本文主要討論復雜查詢,如多跳過濾,簡單環路查詢,模式匹配等復雜查詢類,當前GES主要通過gremlin,cypher和一些原生API來支持各種場景的查詢需求,
||優點|缺點|說明
:--??:--??:--|:--|:--|:--
Gremlin|functional language|1.表達能力(圖靈完備) 2.支持groovy腳本|1.性能差(exponential runtime tree) 2.復雜的查詢書寫困難|適用于體驗,demo,或不追求性能的場景
Cypher|Pattern match style, declarative|1.類SQL寫法 2.深度集成于GES,性能比gremlin好一些|1.表達能力對圖來說差一些(僅為SQL complete) 2.流式支持有限|適用于一般性場景
原生API|json parameter|1.性能非常好 2.傻瓜引數形式|1.靈活性差 2.使用場景有限 3.表達能力差|提供常用查詢API,適用于最求性能,高并發,低延遲的場景
性能
本節以上文所述李雷的好友場景展示一個查詢k=2環路的性能測驗,用以幫助大家更直觀地了解各個查詢間的性能差距:
其中,
- filterV2 - GES原生API,該API性能最佳,TPS與延遲表現優異,
- Cypher - GES的cypher查詢,
- Neo4j - Neo4j community 4.2.3版本cypher,
- gremlin - GES的gremlin,未在圖中體現,實際性能最差,故未做對比,

gremlin使用手冊
gremlin包括OLTP和OLAP兩個部分的語法,其OLTP的語法靈活多變,符合圖原生的表達方式,被廣泛集成于各個圖資料庫廠商,
GES查詢能力優異,但我們僅建議在demo/簡單查詢中使用gremlin,其性能遠遠低于內核原生API與cypher, 這是由gremlin的集成方式決定的,雖然GES在常用語法上做了適當的優化,但是并不能完全覆寫所有的gremlin查詢,我們向您推薦使用集成度更加高的cypher查看后續cypher章節進行常態化查詢,如果有更需要性能的場景,請使用原生API,
查看以下參考資料獲取更多資訊:
- tinkerpop documentation tinkerpop官方檔案,內容詳實,各個step都有案例介紹,
- gremlin 實踐案例 gremlin實踐案例
常用語法
g.V() //獲取圖中所有點,注意該行為在大圖上是高危操作,小心使用,
g.V().limit(10) //取圖中10個點,非隨機,
g.V('小霞','小智').values('age') //獲取圖中id為小智和小霞的屬性值age的值,
> [20, 22]
g.V('小智').out('朋友').out('朋友') //獲取小智的朋友的朋友
> [小明]
g.V('小智').outE('朋友').inV().outE('朋友').inV() //該條陳述句含義和上條完全一致,
g.V('小智').out('朋友').has('age',gt(30)) //獲取小智年齡大于30的朋友
g.V('小智').out('朋友').values('age').sum() //統計小智所有朋友的年齡總和
GES gremlin特殊語法/優化
GES集成了gremlin中的OLTP功能,并在一定程度上做了部分功能增強與strategy優化,
增強版Text Predicate
g.V().has('name', Text.textSubString('xx'))...
| Predicate | 描述 |
|---|---|
| textSubString | 子字串 |
| textCISubString | 忽略大小寫的子字串 |
| textFuzzy | 模糊匹配 |
| textPrefix | 前綴查詢 |
| textRegex | 正則匹配 |
注意事項
在指定schema時,最好不要給屬性取名為id, label, property, properties,
在進行gremlin操作時,有很多step會把結果轉化為map結果,眾所周知,在map結構中,是不允許出現兩個相同key的,一般來說當我們向一個map中重復insert多個相同的key,其value會被覆寫 or 該操作被取消,
故如果我們把屬性名取為id, label, property, properties,在很多操作中,如果id與屬性中的id一起回傳,結果將是不完整的,
cypher使用手冊
cypher在語法上更接近于SQL,表達能力稍微欠缺一些(sql完備),但已能應對絕大多數場景,
GES對于cypher的集成更加接近內核端,充分利用了內核的性能優勢,
查看以下參考資料獲取更多資訊:
- cypher refcard cypher語法參考卡,
- GES cypher GES cypher公有云API檔案,包含兼容性說明,資料型別支持,運算式,函式等說明,
常用語法
match (n) return n //獲取圖中所有點,注意該行為在大圖上需小心使用,
match (n) return n limit 10 //取圖中10個點,非隨機,
match (n) where n.movieid IN ['小霞','小智'] return n.age //獲取圖中id為小智和小霞的屬性值age的值,
match (n)-->(m1:朋友)-->(s1)-->(m2:朋友)-->(s2) where id(n)='小智' return s2 //獲取小智的朋友的朋友
match (n)-->(m1:朋友)-->(s) where id(n)='小智' and s.age>30 return s //獲取小智年齡大于30的朋友
兼容性說明
GES對cypher會進行持續性的優化與加強,當前因為特性/開發進度的原因暫不支持包括:
- 目前暫不支持union、merge、foreach、optional等操作,暫不支持使用Cypher陳述句增刪索引,后續會逐漸開放支持,
- 由于GES的元資料不是Schema Free的,點邊label屬性等有嚴格的限制,因此不支持Remove操作,
- Order by子句不支持List型別的排序,當屬性值的Cardinality不為single時,排序結果未知,
以上說明可在cypher檔案中獲取最新的支持情況,
GES cypher 特殊化處理
預置條件
為了加速查詢以及優化查詢計劃,GES的Cypher查詢編譯程序中使用了基于label的點邊索引,可通過界面/API添加相關的索引新建索引API,
POST http://{SERVER_URL}/ges/v1.0/{project_id}/graphs/{graph_name}/indices
{
"indexName": "cypher_vertex_index",
"indexType": "GlobalCompositeVertexIndex",
"hasLabel": "true",
"indexProperty": []
}
原生API使用手冊
內核原生API是專門為常用場景提供的高性能版本,其輸入輸出均為json格式,
GES提供了豐富多樣的原生API介面,包括管理面API(主要是圖操作,匯入匯出備份等),業務面API,業務面API包括基礎的圖資料庫功能,如點邊的CRUD,索引的管理,高級查詢path query,高級演算法庫,
查看以下參考資料獲取更多資訊:
- 管理面API概覽
- 業務面API概覽,業務面API的呼叫方法可以參考此篇博文,
- 執行演算法說明
常用API說明
一.Path Query
該介面支持對多跳過濾,回圈執行遍歷查詢進行加速,
例如以下gremlin陳述句:
g.V('node1').repeat(out('label_1')).times(3).emit()
以上gremlin是一個三跳查詢,從點node1出發,查詢其出邊關系為label1的鄰居的鄰居的鄰居,并回傳程序中所有涉及到的點,該腳本通過repeat來組織查詢,并通過times來控制loop的次數,甚至后續還可以通過關鍵字until來終止traversal,
以上gremlin使用path query呼叫可使用:
POST /ges/v1.0/{projectId}/graphs/{graphName}/action?action_id=path-query
{
"repeat": [
{
"operator": "outV",
"edge_filter": {
"property_filter": {
"leftvalue": {
"label_name": "labelName"
},
"predicate": "=",
"rightvalue": {
"value": "label_1"
}
}
}
}
],
"emit": true,
"times": 3,
"vertices": [
"node1"
]
}
1. by mode
例如針對二跳鄰居,我們可以通過引數by對id,label,property進行過濾:
g.V("a").repeat(out()).times(2).by(id()) //輸出a的所有一跳二跳鄰居的id,
g.V("a").repeat(out()).times(2).by(label()) //輸出a的所有一跳二跳鄰居的label,
而使用path query我們可以很輕易地把上述gremlin轉化為原生API以獲得更加優異的性能,關鍵字含義幾乎一致,在by中可以指定輸出的形式,如輸出id:
{
"repeat": [
{
"operator": "outV"
}
],
"times": 2,
"vertices": [
"a"
],
"by": [{"id": true}]
}
2. select+by mode

該模式可任意選擇traverse路徑上經過的N層,
如上圖,我們希望顯示李雷與其第二跳好友的關聯關系:
gremlin寫法:
g.V('李雷').as('v0').repeat(out()).times(2).as('v2').select('v0','v2').by(id()).by(id()).dedup()
{//回傳樣例
"results": [
{
"v0": "李雷",
"v2": "小智"
},
{
"v0": "李雷",
"v2": "小霞"
}
]
}
cypher寫法:
match (v0)<--(v1)<--(v2) where id(v0)='1' return distinct id(v0),id(v2)
//回傳json如下,形式稍顯冗余:
{
"data": [
{
"row": [
"李雷",
"小智"
],
"meta": [
null,
null
]
},
{
"row": [
"李雷",
"小霞"
],
"meta": [
null,
null
]
}
]
}
使用path query:
{
"repeat": [
{
"operator": "outV"
}
],
"times": 2,
"vertices": [
"李雷"
],
"by": [{"id": true},{"id": true}],
"select": ["v0", "v2"]
}
//回傳json如下,直接回傳select中的引數:
{
"select": [
["李雷", "小智"],
["李雷", "小霞"]
]
}
二.演算法API
演算法API提供豐富的原生演算法庫,可以通過界面或者API使用,

在界面上直接運行演算法能夠可視化地查看演算法結果,關于每個演算法的詳情,也可以查詢官方演算法檔案,
| 引數 | 是否必選 | 說明 | 型別 | 取值范圍 | 默認值 |
|---|---|---|---|---|---|
| alpha | 否 | 權重系數(又稱阻尼系數) | Double | 0~1,不包括0和1 | 0.85 |
| convergence | 否 | 收斂精度 | Double | 0~1,不包括0和1 | 0.00001 |
| max_iterations | 否 | 最大迭代次數 | Integer | 1~2000 | 1000 |
| directed | 否 | 是否考慮邊的方向 | Boolean | true或false | true |
如上pagerank演算法引數串列,列出了引數說明,取值范圍以及默認值,
此外,我們也可以直接使用RESTful API的形式呼叫演算法,大部分演算法以異步的形式互動:呼叫演算法后我們可以獲得一個jobId,使用jobId我們可以查詢演算法運行的狀態及運行結果,同時也可以對結果進行分頁及數量截取,
GET http://{SERVER_URL}/ges/v1.0/{project_id}/graphs/{graph_name}/jobs/{job_id}/status?offset=0&limit=2
最短路徑 shortest_path
最短路徑屬于一個傳統的圖論問題,其包含各種不同的形式,如單源最短路,多源最短路,常用的演算法如Dijkstra, Bellman-Ford, Floyd-Warshall, Johnson等演算法,
GES提供多種場景的最短路徑,如shortest_path, all_shortest_paths, shortest_path_of_vertex_sets等,均以原生API或圖形界面的方式提供
該API屬于演算法API,其呼叫方式查看檔案,

POST /ges/v1.0/{project_id}/graphs/{graph_name}/action?action_id=execute-algorithm
{
"executionMode": "sync",
"algorithmName": "shortest_path",
"parameters": {
"source": "Alexander Payne",
"target": "Harrison Ford",
"weight":"score"
}
}
不同查詢方式場景詳解
案例1-好友推薦

我們向李雷推薦好友,思路是:向他推薦其好友的好友,但是推薦的好友中不應包含李雷本身的好友,比如圖中韓梅梅同時是李雷的一跳好友和二跳好友,這時我們不應向李雷推薦韓梅梅,因為她已經是李雷的好友了,
下面將分別展示使用gremlin,cypher和path query查詢,回傳均為推薦路徑:李雷->李雷好友->推薦好友,
gremlin
gremlin>
g.V("李雷").repeat(out("friend").simplePath().where(without('1hop')).store('1hop')).
times(2).path().by("name").limit(100)
gremlin>
[李雷,小明,小智]
[李雷,韓梅梅,小智]
[李雷,韓梅梅,小霞]
cypher
match (a)-[:friend]->(d) where id(a)='李雷' with a, collect(d) as neighbor
match (a)-[:friend]-(b)-[:friend]-(c)
where not (c in neighbor)
return a.name, b.name, c.name
//回傳樣例
[
{
"row": ["李雷", "小明","小智"],
"meta": [null, null, null]
},
{
"row": ["李雷","韓梅梅", "小智"],
"meta": [null, null, null]
},
{
"row": ["李雷", "韓梅梅", "小霞"],
"meta": [null, null, null]
}
]
path query
{
"repeat": [
{
"operator": "outV",
"edge_filter": {
"property_filter": {
"leftvalue": {
"label_name": "labelName"
},
"predicate": "=",
"rightvalue": {
"value": "friend"
}
}
}
}
],
"times": 2,
"vertices": [
"李雷"
],
"by": [{"id": true},{"id": true},{"id": true}],
"select": ["v0", "v1", "v2"]
}
{
"select": [
["李雷", "小明","小智"],
["李雷","韓梅梅", "小智"],
["李雷", "韓梅梅", "小霞"]
]
}
案例2-(k=2環路)
開發者李雷小朋友維護了一個自己的關系鏈圖資料庫,他怎么能從圖資料庫中查詢出與他互相關注且年齡大于30的朋友呢?

回到文章開頭,我們如何幫助李雷完成查詢呢?這其實可以歸結為一個環路問題,
我們需要獲取李雷的雙向好友,即從李雷出發的k=2且邊上過濾條件為age>30,friend的環路,
下面將分別展示使用gremlin,cypher,path query和環路演算法進行查詢,該四種方式均可以幫助李雷完成目標,
gremlin
gremlin>
g.V("李雷").outE().has('age',gt(30)).otherV().where(out('friend').
(hasId('李雷'))).limit(100)
cypher
match (a)-[r1]->(b)-[r2:friend]->(c) where a.mid='李雷' and r1.age>30 and a=c return id(b) limit 100
path query
POST /ges/v1.0/{projectId}/graphs/{graphName}/action?action_id=path-query
{
"repeat": [
{
"operator": "outV",
"edge_filter": {
"property_filter": {
"leftvalue": {
"property_name": "age"
},
"predicate": ">",
"rightvalue": {
"value": "30"
}
}
}
},
{
"operator": "outV",
"edge_filter": {
"property_filter": {
"leftvalue": {
"label_name": "label_name"
},
"predicate": "=",
"rightvalue": {
"value": "friend"
}
}
}
}
],
"limit": 100,
"times": 2,
"vertices": ["李雷"],
"by": [{ "id": true}],
"select": ["v1"]
}
環路演算法
{
"algorithmName": "filtered_circle_detection",
"parameters": {
"sources": "李雷",
"n": 100
},
"filters": [
{},
{
"operator": "out",
"edge_filter": {
"property_filter": {
"leftvalue": {
"property_name": "age"
},
"predicate": ">",
"rightvalue": {
"value": "30"
}
}
}
},
{
"operator": "out",
"edge_filter": {
"property_filter": {
"leftvalue": {
"label_name": "label_name"
},
"predicate": "=",
"rightvalue": {
"value": "friends"
}
}
}
}
]
}
本文由華為云發布,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/448126.html
標籤:其他
