6.InfluxDB-InfluxQL基礎語法教程--GROUP BY子句-有解無憂

本文翻譯自官網，官網地址：(https://docs.influxdata.com/influxdb/v1.7/query_language/data_exploration/)

GROUP BY子句通過用戶自己制定的tags set或time區間，來將查詢結果進行分組，

一、GROUP BY tags

GROUP BY 通過用戶指定的tag set，來對查詢結果進行分組，
語法：

SELECT_clause FROM_clause [WHERE_clause]
GROUP BY [* | <tag_key>[,<tag_key]]

GROUP BY子句	意義
GROUP BY *	使用所有tag對查詢結果進行分組
GROUP BY <tag_key>	使用指定tag對查詢結果進行分組
GROUP BY <tag_key>,<tag_key>	使用指定的多個tag對查詢結果進行分組，其中tag之間的順序是無關的，

注：如果在sql中同時存在WHERE子句和GROUP BY子句，則GROUP BY子句一定要在WHERE子句之后！

Other supported features: Regular Expressions

GROUP BY tags 示例sql

Group query results by a single tag

上面的sql使用了MEAN函式，來對h2o_feet這個measurement中的location這個tag進行分組求平均值，
注：在InfluxDB中，0紀元1970-01-01T00:00:00Z這個時間經常被用來表示timestamp的NULL值，如果你的查詢中沒有顯示指定回傳一個timestamp，比如上面在呼叫聚合函式時，就沒有指定時間區間，因此InfluxDB最后回傳0紀元來作為timestamp，
Group query results by more than one tag
Group query results by all tags

二、基礎GROUP BY time intervals

GROUP BY time() 查詢會將查詢結果按照用戶指定的時間區間來進行分組，
語法：

SELECT <function>(<field_key>) FROM_clause
WHERE <time_range>
GROUP BY time(<time_interval>),[tag_key] [fill(<fill_option>)]

基本的 GROUP BY time() 查詢用法需要在SELECT子句中呼叫相關函式，并且在WHERE子句中呼叫time時間區間，

time(time_interval)
在GROUP BY time()子句中的time_interval是個連續的時間區間，該時間區間決定了InfluxDB如何通過時間來對查詢結果進行分組，比如，如果time_interval為5m，那么它會將查詢結果分為5分鐘一組（如果在WHERE子句中指定了time區間，那么就是將WHERE中指定的time區間劃分為沒5分鐘一組），
fill(<fill_option>)
fill(<fill_option>) 是可選的，它可以填充那些沒有資料的時間區間的值，從 [GROUP BY time intervals and fill() ] (https://docs.influxdata.com/influxdb/v1.7/query_language/data_exploration/#group-by-time-intervals-and-fill) 部分可查看到關于這部分的更多資訊，

注：基本的GROUP BY time()查詢通過當前InfluxDB資料庫的預設時間邊界來確定每個時間間隔中包含的原始資料和查詢回傳的時間戳，

基本用法示例sql

先看一個WHERE查詢

下面的GROUP BY time(time_interval)示例是在上面的sql基礎上進行改進的，sql為：

SELECT COUNT("water_level") FROM "h2o_feet"
WHERE "location"='coyote_creek'
    AND time >= '2015-08-18T00:00:00Z'
    AND time <= '2015-08-18T00:30:00Z'
GROUP BY time(12m)

查詢結果：

該sql將h2o_feet表中tag=“coyote_creek”，且在'2015-08-18T00:00:00Z'和'2015-08-18T00:30:00Z'時間區間內的資料查詢出來，并對其劃分為每12分鐘一組，對water_level值進行count計算，
注意：在查詢結果中，時間區間是左閉右開的，拿第一行查詢結果資料來說，2015-08-18T00:00:00Z表示的時間區間是[2015-08-18T00:00:00, 2015-08-18T00:12:00Z )

常見問題

問題：查詢結果中有預期之外的時間區間和值，
在基本用法中，GROUP BY time()查詢通過當前InfluxDB資料庫的預設時間邊界來確定每個時間間隔中包含的原始資料和查詢回傳的時間戳，這有可能會導致預期之外的結果值，
比如，通過如下sql:

SELECT "water_level" FROM "h2o_feet"
WHERE "location"='coyote_creek'
    AND time >= '2015-08-18T00:00:00Z'
    AND time <= '2015-08-18T00:18:00Z'

我們查詢到原始資料如下所示：

在接下來的查詢中，我們通過WHERE子句，指定查詢12分鐘內的資料，并通過GROUP BY子句，將查詢結果按12分鐘的時間區間進行分組，

SELECT COUNT("water_level") FROM "h2o_feet"
WHERE "location"='coyote_creek'
    AND time >= '2015-08-18T00:06:00Z'
    AND time < '2015-08-18T00:18:00Z'
GROUP BY time(12m)

按照預想，因為查詢的是12分鐘內的資料，并且group by時是按照12分鐘來進行分組的，所以最后的查詢結果應該只有一行而已，然后實際的查詢結果卻有兩行：

解釋：
influxdb使用預設的整數時間邊界來作為GROUP BY的時間間隔，這些間隔獨立于WHERE子句中的任何時間條件，在計算結果時，所有回傳的資料都必須出現在WHERE查詢的顯式時間范圍內，但當按間隔作為GROUP BY分組時是基于預設的時間邊界，
（這里翻譯的不好，下面是原版英文：
InfluxDB uses preset round-number time boundaries for GROUP BY intervals that are independent of any time conditions in the WHERE clause. When it calculates the results, all returned data must occur within the query’s explicit time range but the GROUP BY intervals will be based on the preset time boundaries.
）

高級的GROUP BY time()語法允許用戶自定義預設時間邊界的開始時間，在高級語法小節的示例sql3中，將展示這種用法，它查詢的結果如下：

三、高級GROUP BY time() 語法

語法如下：

SELECT <function>(<field_key>)
FROM_clause
WHERE <time_range>
GROUP BY time(<time_interval>,<offset_interval>),[tag_key] [fill(<fill_option>)]

在GROUP BY time()高級語法中，需要在SELECT子句中呼叫InfluxDB的函式，并在WHERE子句中指定時間區間，并且需要注意到的是，GROUP BY子句必須在WHERE子句之后！

time(time_interval,offset_interval)
在GROUP BY time()子句中的通過time_interval和offset_interval來表示一個連續的時間區間，該時間區間決定了InfluxDB如何通過時間來對查詢結果進行分組，比如，如果時間區間為5m，那么它會將查詢結果分為5分鐘一組（如果在WHERE子句中指定了time區間，那么就是將WHERE中指定的time區間劃分為沒5分鐘一組），
offset_interval是持續時間文本，它向前或向后移動InfluxDB資料庫的預設時間邊界，offset_interval可以為正或負，
fill(<fill_option>)
fill(<fill_option>)是可選的，它可以填充那些沒有資料的時間區間的值，從 GROUP BY time intervals and fill() 部分可查看到關于這部分的更多資訊，

注：高級 GROUP BY time() 語法依賴于time_interval、offset_interval、以及 InfluxDB 資料庫的預設時間邊界來確定每組內的資料條數、以及查詢結果的時間戳，

高級用法示例sql

先看如下查詢sql

SELECT "water_level" FROM "h2o_feet"
WHERE "location"='coyote_creek'
    AND time >= '2015-08-18T00:00:00Z'
    AND time <= '2015-08-18T00:54:00Z'

查詢結果：

接下來將使用上面的樣例資料的子集來進行演示，以下sql將按照每18m對資料進行進組，并將預設的時間界限前移，

ELECT MEAN("water_level") FROM "h2o_feet"
WHERE "location"='coyote_creek'
    AND time >= '2015-08-18T00:06:00Z'
    AND time <= '2015-08-18T00:54:00Z'
GROUP BY time(18m,6m)

查詢結果：

可見上面sql將查詢結果按照每18m為一組進行了分組，并且將預設的時間界限偏移了6分鐘，
注意，對于沒有offset_interval的group by time()，它的查詢結果的時間邊界和回傳的時間戳遵循influxdb資料庫的預設時間邊界，下面我們看offset_interval的group by time()的查詢結果：

SELECT MEAN("water_level") FROM "h2o_feet"
WHERE "location"='coyote_creek'
    AND time >= '2015-08-18T00:06:00Z'
    AND time <= '2015-08-18T00:54:00Z'
GROUP BY time(18m)

再看如下sql：

SELECT MEAN("water_level") FROM "h2o_feet"
WHERE "location"='coyote_creek'
    AND time >= '2015-08-18T00:06:00Z'
    AND time <= '2015-08-18T00:54:00Z'
GROUP BY time(18m,-12m);

查詢結果

注：該sql使用的是time(18m,-12m)，offset_interval是負數，它的查詢結果跟使用time(18m,6m)是一樣的，因此在決定正負偏移間隔時，請隨意選擇最直觀的選項，

GROUP BY time intervals and fill()

Fill() 可以填充那些沒有資料的時間區間的值，
語法：

SELECT <function>(<field_key>) FROM_clause
WHERE <time_range>
GROUP BY time(time_interval,[<offset_interval])[,tag_key] [fill(<fill_option>)]

默認情況下，在GROUP BY time()查詢結果中，若某個時間區間沒有資料，則該時間區間對應的值為null，通過fill()，就可以填充那些沒有資料的時間區間的值，
需要注意的是，fill()必須出現在GROUP BY子句的最后，

Fill選項

任何數學數值
使用給定的數學數值進行填充
linear
為沒有資料值的時間區間線性插入數值，使得插入之后的數值，跟其他本來就有資料的區間的值成線性，（這里翻譯的不是很好，看示例就能明白了）
none
若某個時間區間內沒有資料，則在查詢結果中該區間對應的時間戳將不顯示出來
null
沒有值的區間，顯示為null，這也是默認的選項，
previous
用前一個區間的數值來填充當前沒有資料的區間的值，

示例：

fill(100)
fill(linear)
fill(none)
fill(null)
fill(previous)

轉載請註明出處，本文鏈接：https://www.uj5u.com/shujuku/48473.html

標籤：大數據

上一篇：2.InfluxDB-InfluxQL基礎語法教程--目錄

下一篇：9.InfluxDB-InfluxQL基礎語法教程--LIMIT and SLIMIT 子句