主頁 > 資料庫 > 時序資料庫有哪些特點? TimescaleDB時序資料庫介紹

時序資料庫有哪些特點? TimescaleDB時序資料庫介紹

2021-12-07 07:57:29 資料庫

 


背景

隨著物聯網的發展,時序資料庫的需求越來越多,比如水文監控、工廠的設備監控、國家安全相關的資料監控、通訊監控、金融行業指標資料、傳感器資料等,

在互聯網行業中,也有著非常多的時序資料,例如用戶訪問網站的行為軌跡,應用程式產生的日志資料等等,

時序資料有幾個特點

1. 基本上都是插入,沒有更新的需求,

2. 資料基本上都有時間屬性,隨著時間的推移不斷產生新的資料,舊的資料不需要保存太久,

業務方對時序資料通常有幾個查詢需求

1. 獲取最新狀態,查詢最近的資料(例如傳感器最新的狀態)

2. 展示區間統計,指定時間范圍,查詢統計資訊,例如平均值,最大值,最小值,計數等,,,

3. 獲取例外資料,根據指定條件,篩選例外資料

時序資料庫應該具備的特點

1. 壓縮能力

通常用得上時序資料庫的業務,傳感器產生的資料量都是非常龐大的,資料壓縮可以降低存盤成本,

2. 自動rotate

時序資料通常對歷史資料的保留時間間隔是有規定的,例如一個線上時序資料業務,可能只需要保留最近1周的資料,

為了方便使用,時序資料庫必須有資料自動rotate的能力,

3. 支持分片,水平擴展

因為涉及的傳感器可能很多,單個節點可能比較容易成為瓶頸,所以時序資料庫應該具備水平擴展的能力,例如分表應該支持水平磁區,

4. 自動擴展磁區,

業務對時序資料的查詢,往往都會帶上對時間區間進行過濾,因此時序資料通常在磁區時,一定會有一個時間磁區的概念,時序資料庫務必能夠支持自動擴展磁區,減少用戶的管理量,不需要人為的干預自動擴展磁區,例如1月份月末,自動創建2月份的磁區,

5. 插入性能

時序資料,插入是一個強需求,對于插入性能要求較高,

6. 磁區可洗掉

磁區可以被洗掉,例如保留1個月的資料,1個月以前的磁區都可以洗掉掉,

7. 易用性(SQL介面)

SQL是目前最通用的資料庫訪問語言,如果時序資料庫能支持SQL是最好的,

8. 型別豐富

物聯網的終端各異,會有越來越多的非標準型別的支持需求,例如采集影像的傳感器,資料庫中至少要能夠存取影像的特征值,而對于其他垂直行業也是如此,為了最大程度的詮釋業務,必須要有精準的資料型別來支撐,

9. 索引介面

支持索引,毫無疑問是為了加速查詢而引入的,

10. 高效分析能力

時序資料,除了單條的查詢,更多的是報表分析或者其他的分析類需求,這對時序資料庫的統計能力也是一個挑戰,

11. 其他特色

11.1 支持豐富的資料型別,陣列、范圍型別、JSON型別、K-V型別、GIS型別、圖型別等,滿足更多的工業化需求,例如傳感器的位置資訊、傳感器上傳的資料值的范圍,批量以陣列或JSON的形式上傳,傳感器甚至可能上傳圖片特征值,便于圖片的分析,(例如國家安全相關),軌跡資料的上層則帶有GIS屬性,

這個世界需要的是支持型別豐富的時序資料庫,而不是僅僅支持簡單型別的時序資料庫,

11.2 支持豐富的索引介面,因為型別豐富了,普通的B-TREE索引可能無法滿足快速的檢索需求,需要更多的索引來支持 陣列、JSON、GIS、圖特征值、K-V、范圍型別等, (例如PostgreSQL的gin, gist, sp-gist, brin, rum, bloom, hash索引介面)

這兩點可以繼承PostgreSQL資料庫的已有功能,已完全滿足,

TimescaleDB介紹

TimescaleDB是基于PostgreSQL資料庫打造的一款時序資料庫,插件化的形式,隨著PostgreSQL的版本升級而升級,不會因為另立分支帶來麻煩,

TimescaleDB架構

pic

資料自動按時間和空間分片(chunk),

TimescaleDB具備以下特點

1. 基于時序優化

2. 自動分片(按時間、空間自動分片(chunk))

3. 全SQL介面

4. 支持垂直于橫向擴展

5. 支持時間維度、空間維度自動磁區,空間維度指屬性欄位(例如傳感器ID,用戶ID等)

6. 支持多個SERVER,多個CHUNK的并行查詢,磁區在TimescaleDB中被稱為chunk,

7. 自動調整CHUNK的大小

8. 內部寫優化(批量提交、記憶體索引、事務支持、資料倒灌),

記憶體索引,因為chunk size比較適中,所以索引基本上都不會被交換出去,寫性能比較好,

資料倒灌,因為有些傳感器的資料可能寫入延遲,導致需要寫以前的chunk,timescaleDB允許這樣的事情發生(可配置),

9. 復雜查詢優化(根據查詢條件自動選擇chunk,最近值獲取優化(最小化的掃描,類似遞回收斂),limit子句pushdown到不同的server,chunks,并行的聚合操作)

《時序資料合并場景加速分析和實作 - 復合索引,視窗分組查詢加速,變態遞回加速》

10. 利用已有的PostgreSQL特性(支持GIS,JOIN等),方便的管理(流復制、PITR)

11. 支持自動的按時間保留策略(自動洗掉過舊資料)

疑問

1. chunk過多,會不會影響查詢性能?

這點不需要擔心,PostgreSQL 10.0已經優化了

《PostgreSQL 10.0 preview 性能增強 - 磁區表子表元資訊搜索性能增強》

例子

1. 創建時序表(hypertable)

# Create a schema for a new hypertable  
CREATE TABLE sensor_data (  
"time" timestamp with time zone NOT NULL,  
device_id TEXT NOT NULL,  
location TEXT NULL,  
temperature NUMERIC NULL,  
humidity NUMERIC NULL,  
pm25 NUMERIC  
);  
  
# Create a hypertable from this data  
SELECT create_hypertable  
('sensor_data', 'time', 'device_id', 16);  

2. 遷移資料到hyper table

# Migrate data from existing Postgres table into  
# a TimescaleDB hypertable  
INSERT INTO sensor_data (SELECT * FROM old_data);  

3. 查詢hyper table

# Query hypertable like any SQL table  
SELECT device_id, AVG(temperature) from sensor_data  
WHERE temperature IS NOT NULL AND humidity > 0.5  
AND time > now() - interval '7 day'  
GROUP BY device_id;  

4. 查詢最近例外的資料

# Metrics about resource-constrained devices  
SELECT time, cpu, freemem, battery FROM devops  
WHERE device_id='foo'  
AND cpu > 0.7 AND freemem < 0.2  
ORDER BY time DESC  
LIMIT 100;  

5. 計算最近7天,每小時的例外次數

# Calculate total errors by latest firmware versions  
# per hour over the last 7 days  
SELECT date_trunc('hour', time) as hour, firmware,  
COUNT(error_msg) as errno FROM data  
WHERE firmware > 50  
AND time > now() - interval '7 day'  
GROUP BY hour, firmware  
ORDER BY hour DESC, errno DESC;  

6. 計算巴士的每小時平均速度

# Find average bus speed in last hour  
# for each NYC borough  
SELECT loc.region, AVG(bus.speed) FROM bus  
INNER JOIN loc ON (bus.bus_id = loc.bus_id)  
WHERE loc.city = 'nyc'  
AND bus.time > now() - interval '1 hour'  
GROUP BY loc.region;  

7. 展示最近12小時,每小時的平均值

=#  SELECT date_trunc('hour', time) AS hour, AVG(weight)  
    FROM logs  
    WHERE device_type = 'pressure-sensor' AND customer_id = 440  
      AND time > now() - interval '12 hours'  
    GROUP BY hour;  
  
 hour               | AVG(weight)  
--------------------+--------------  
 2017-01-04 12:00   | 170.0  
 2017-01-04 13:00   | 174.2  
 2017-01-04 14:00   | 174.0  
 2017-01-04 15:00   | 178.6  
 2017-01-04 16:00   | 173.0  
 2017-01-04 17:00   | 169.9  
 2017-01-04 18:00   | 168.1  
 2017-01-04 19:00   | 170.2  
 2017-01-04 20:00   | 167.4  
 2017-01-04 21:00   | 168.6  

8. 監控每分鐘過載的設備數量

=#  SELECT date_trunc('minute', time) AS minute, COUNT(device_id)  
    FROM logs  
    WHERE cpu_level > 0.9 AND free_mem < 1024  
      AND time > now() - interval '24 hours'  
    GROUP BY minute  
    ORDER BY COUNT(device_id) DESC LIMIT 25;  
  
 minute             | heavy_load_devices  
--------------------+---------------------  
 2017-01-04 14:59   | 1653  
 2017-01-04 15:01   | 1650  
 2017-01-04 15:00   | 1605  
 2017-01-04 15:02   | 1594  
 2017-01-04 15:03   | 1594  
 2017-01-04 15:04   | 1561  
 2017-01-04 15:06   | 1499  
 2017-01-04 15:05   | 1460  
 2017-01-04 15:08   | 1459  

9. 最近7天,按韌體版本,輸出每個韌體版本的報錯次數

=#  SELECT firmware_version, SUM(error_count) FROM logs  
    WHERE time > now() - interval '7 days'  
    GROUP BY firmware_version  
    ORDER BY SUM(error_count) DESC LIMIT 10;  
  
 firmware_version  | SUM(error_count)  
-------------------+-------------------  
 1.0.10            | 191  
 1.1.0             | 180  
 1.1.1             | 179  
 1.0.8             | 164  
 1.1.3             | 161  
 1.1.2             | 152  
 1.2.1             | 144  
 1.2.0             | 137  
 1.0.7             | 130  
 1.0.5             | 112  
 1.2.2             | 110  

10. 某個范圍,每小時,溫度高于90度的設備數量,

=#  SELECT date_trunc('hour', time) AS hour, COUNT(logs.device_id)  
    FROM logs  
    JOIN devices ON logs.device_id = devices.id  
    WHERE logs.temperature > 90 AND devices.location = 'SITE-1'  
    GROUP BY hour;  
  
 hour               | COUNT(logs.device_id)  
--------------------+------------------------  
 2017-01-04 12:00   | 994  
 2017-01-04 13:00   | 905  
 2017-01-04 14:00   | 875  
 2017-01-04 15:00   | 910  
 2017-01-04 16:00   | 905  
 2017-01-04 17:00   | 840  
 2017-01-04 18:00   | 801  
 2017-01-04 19:00   | 813  
 2017-01-04 20:00   | 798  

小結

1. TimescaleDB是基于PostgreSQL的時序資料庫插件,完全繼承了PostgreSQL的功能,對于復雜查詢,各種型別(GIS,json,k-v,影像特征值,range,陣列,復合型別,自定義型別,.....)的支持非常豐富,非常適合工業化的時序資料庫場景需求,

1.1 支持豐富的資料型別,陣列、范圍型別、JSON型別、K-V型別、GIS型別、圖型別等,滿足更多的工業化需求,例如傳感器的位置資訊、傳感器上傳的資料值的范圍,批量以陣列或JSON的形式上傳,傳感器甚至可能上傳圖片特征值,便于圖片的分析,(例如國家安全相關),軌跡資料的上層則帶有GIS屬性,

未來,這個世界更多需要的是支持型別豐富的時序資料庫,而不僅僅是支持簡單型別的時序資料庫,

1.2 支持豐富的索引介面,因為型別豐富了,普通的B-TREE索引可能無法滿足快速的檢索需求,需要更多的索引來支持 陣列、JSON、GIS、圖特征值、K-V、范圍型別等, (例如PostgreSQL的gin, gist, sp-gist, brin, rum, bloom, hash索引介面)

2. 資料的后期處理,分析,結合PostgreSQL退出的HTAP特性,可以更好的滿足大量時序資料的實時查詢,實時挖掘的需求,

結合技術包括: CPU多核并行計算、向量計算、LLVM、列存盤、算子復用、內置的sharding 等等,

《PostgreSQL 10.0 preview 性能增強 - 推出JIT開發框架(朝著HTAP邁進)》

《分析加速引擎黑科技 - LLVM、列存、多核并行、算子復用 大聯姻 - 一起來開啟PostgreSQL的百寶箱》

《PostgreSQL 向量化執行插件(瓦片式實作) 10x提速OLAP》

《PostgreSQL 10.0 preview 功能增強 - OLAP增強 向量聚集索引(列存盤擴展)》

《PostGIS 地理資訊資料 多核并行處理》

《PostgreSQL 9.6 sharding + 單元化 (based on postgres_fdw) 最佳實踐 - 通用水平分庫場景設計與實踐》

《PostgreSQL 9.6 引領開源資料庫攻克多核并行計算難題》

參考

http://www.timescale.com/index.html

http://www.timescale.com/papers/timescaledb.pdf

https://github.com/timescale/timescaledb

TimescaleDB PPT

 

作者

digoal

日期

2017-04-09

標簽

PostgreSQL , TimescaleDB , 時間序列 , 物聯網 , IoT

本文來自博客園,作者:古道輕風,轉載請注明原文鏈接:https://www.cnblogs.com/88223100/p/Introduction_to_TimescaleDB_time_series_database.html

轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/374419.html

標籤:PostgreSQL

上一篇:Oracle資料庫入門(二)

下一篇:PostgreSQL 記憶體表

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • GPU虛擬機創建時間深度優化

    **?桔妹導讀:**GPU虛擬機實體創建速度慢是公有云面臨的普遍問題,由于通常情況下創建虛擬機屬于低頻操作而未引起業界的重視,實際生產中還是存在對GPU實體創建時間有苛刻要求的業務場景。本文將介紹滴滴云在解決該問題時的思路、方法、并展示最終的優化成果。 從公有云服務商那里購買過虛擬主機的資深用戶,一 ......

    uj5u.com 2020-09-10 06:09:13 more
  • 可編程網卡芯片在滴滴云網路的應用實踐

    **?桔妹導讀:**隨著云規模不斷擴大以及業務層面對延遲、帶寬的要求越來越高,采用DPDK 加速網路報文處理的方式在橫向縱向擴展都出現了局限性。可編程芯片成為業界熱點。本文主要講述了可編程網卡芯片在滴滴云網路中的應用實踐,遇到的問題、帶來的收益以及開源社區貢獻。 #1. 資料中心面臨的問題 隨著滴滴 ......

    uj5u.com 2020-09-10 06:10:21 more
  • 滴滴資料通道服務演進之路

    **?桔妹導讀:**滴滴資料通道引擎承載著全公司的資料同步,為下游實時和離線場景提供了必不可少的源資料。隨著任務量的不斷增加,資料通道的整體架構也隨之發生改變。本文介紹了滴滴資料通道的發展歷程,遇到的問題以及今后的規劃。 #1. 背景 資料,對于任何一家互聯網公司來說都是非常重要的資產,公司的大資料 ......

    uj5u.com 2020-09-10 06:11:05 more
  • 滴滴AI Labs斬獲國際機器翻譯大賽中譯英方向世界第三

    **桔妹導讀:**深耕人工智能領域,致力于探索AI讓出行更美好的滴滴AI Labs再次斬獲國際大獎,這次獲獎的專案是什么呢?一起來看看詳細報道吧! 近日,由國際計算語言學協會ACL(The Association for Computational Linguistics)舉辦的世界最具影響力的機器 ......

    uj5u.com 2020-09-10 06:11:29 more
  • MPP (Massively Parallel Processing)大規模并行處理

    1、什么是mpp? MPP (Massively Parallel Processing),即大規模并行處理,在資料庫非共享集群中,每個節點都有獨立的磁盤存盤系統和記憶體系統,業務資料根據資料庫模型和應用特點劃分到各個節點上,每臺資料節點通過專用網路或者商業通用網路互相連接,彼此協同計算,作為整體提供 ......

    uj5u.com 2020-09-10 06:11:41 more
  • 滴滴資料倉庫指標體系建設實踐

    **桔妹導讀:**指標體系是什么?如何使用OSM模型和AARRR模型搭建指標體系?如何統一流程、規范化、工具化管理指標體系?本文會對建設的方法論結合滴滴資料指標體系建設實踐進行解答分析。 #1. 什么是指標體系 ##1.1 指標體系定義 指標體系是將零散單點的具有相互聯系的指標,系統化的組織起來,通 ......

    uj5u.com 2020-09-10 06:12:52 more
  • 單表千萬行資料庫 LIKE 搜索優化手記

    我們經常在資料庫中使用 LIKE 運算子來完成對資料的模糊搜索,LIKE 運算子用于在 WHERE 子句中搜索列中的指定模式。 如果需要查找客戶表中所有姓氏是“張”的資料,可以使用下面的 SQL 陳述句: SELECT * FROM Customer WHERE Name LIKE '張%' 如果需要 ......

    uj5u.com 2020-09-10 06:13:25 more
  • 滴滴Ceph分布式存盤系統優化之鎖優化

    **桔妹導讀:**Ceph是國際知名的開源分布式存盤系統,在工業界和學術界都有著重要的影響。Ceph的架構和演算法設計發表在國際系統領域頂級會議OSDI、SOSP、SC等上。Ceph社區得到Red Hat、SUSE、Intel等大公司的大力支持。Ceph是國際云計算領域應用最廣泛的開源分布式存盤系統, ......

    uj5u.com 2020-09-10 06:14:51 more
  • es~通過ElasticsearchTemplate進行聚合~嵌套聚合

    之前寫過《es~通過ElasticsearchTemplate進行聚合操作》的文章,這一次主要寫一個嵌套的聚合,例如先對sex集合,再對desc聚合,最后再對age求和,共三層嵌套。 Aggregations的部分特性類似于SQL語言中的group by,avg,sum等函式,Aggregation ......

    uj5u.com 2020-09-10 06:14:59 more
  • 爬蟲日志監控 -- Elastc Stack(ELK)部署

    傻瓜式部署,只需替換IP與用戶 導讀: 現ELK四大組件分別為:Elasticsearch(核心)、logstash(處理)、filebeat(采集)、kibana(可視化) 下載均在https://www.elastic.co/cn/downloads/下tar包,各組件版本最好一致,配合fdm會 ......

    uj5u.com 2020-09-10 06:15:05 more
最新发布
  • day02-2-商鋪查詢快取

    功能02-商鋪查詢快取 3.商鋪詳情快取查詢 3.1什么是快取? 快取就是資料交換的緩沖區(稱作Cache),是存盤資料的臨時地方,一般讀寫性能較高。 快取的作用: 降低后端負載 提高讀寫效率,降低回應時間 快取的成本: 資料一致性成本 代碼維護成本 運維成本 3.2需求說明 如下,當我們點擊商店詳 ......

    uj5u.com 2023-04-20 08:33:24 more
  • MySQL中binlog備份腳本分享

    關于MySQL的二進制日志(binlog),我們都知道二進制日志(binlog)非常重要,尤其當你需要point to point災難恢復的時侯,所以我們要對其進行備份。關于二進制日志(binlog)的備份,可以基于flush logs方式先切換binlog,然后拷貝&壓縮到到遠程服務器或本地服務器 ......

    uj5u.com 2023-04-20 08:28:06 more
  • day02-短信登錄

    功能實作02 2.功能01-短信登錄 2.1基于Session實作登錄 2.1.1思路分析 2.1.2代碼實作 2.1.2.1發送短信驗證碼 發送短信驗證碼: 發送驗證碼的介面為:http://127.0.0.1:8080/api/user/code?phone=xxxxx<手機號> 請求方式:PO ......

    uj5u.com 2023-04-20 08:27:27 more
  • 快取與資料庫雙寫一致性幾種策略分析

    本文將對幾種快取與資料庫保證資料一致性的使用方式進行分析。為保證高并發性能,以下分析場景不考慮執行的原子性及加鎖等強一致性要求的場景,僅追求最終一致性。 ......

    uj5u.com 2023-04-20 08:26:48 more
  • sql陳述句優化

    問題查找及措施 問題查找 需要找到具體的代碼,對其進行一對一優化,而非一直把關注點放在服務器和sql平臺 降低簡化每個事務中處理的問題,盡量不要讓一個事務拖太長的時間 例如檔案上傳時,應將檔案上傳這一步放在事務外面 微軟建議 4.啟動sql定時執行計劃 怎么啟動sqlserver代理服務-百度經驗 ......

    uj5u.com 2023-04-20 08:26:35 more
  • 云時代,MySQL到ClickHouse資料同步產品對比推薦

    ClickHouse 在執行分析查詢時的速度優勢很好的彌補了MySQL的不足,但是對于很多開發者和DBA來說,如何將MySQL穩定、高效、簡單的同步到 ClickHouse 卻很困難。本文對比了 NineData、MaterializeMySQL(ClickHouse自帶)、Bifrost 三款產品... ......

    uj5u.com 2023-04-20 08:26:29 more
  • sql陳述句優化

    問題查找及措施 問題查找 需要找到具體的代碼,對其進行一對一優化,而非一直把關注點放在服務器和sql平臺 降低簡化每個事務中處理的問題,盡量不要讓一個事務拖太長的時間 例如檔案上傳時,應將檔案上傳這一步放在事務外面 微軟建議 4.啟動sql定時執行計劃 怎么啟動sqlserver代理服務-百度經驗 ......

    uj5u.com 2023-04-20 08:25:13 more
  • Redis 報”OutOfDirectMemoryError“(堆外記憶體溢位)

    Redis 報錯“OutOfDirectMemoryError(堆外記憶體溢位) ”問題如下: 一、報錯資訊: 使用 Redis 的業務介面 ,產生 OutOfDirectMemoryError(堆外記憶體溢位),如圖: 格式化后的報錯資訊: { "timestamp": "2023-04-17 22: ......

    uj5u.com 2023-04-20 08:24:54 more
  • day02-2-商鋪查詢快取

    功能02-商鋪查詢快取 3.商鋪詳情快取查詢 3.1什么是快取? 快取就是資料交換的緩沖區(稱作Cache),是存盤資料的臨時地方,一般讀寫性能較高。 快取的作用: 降低后端負載 提高讀寫效率,降低回應時間 快取的成本: 資料一致性成本 代碼維護成本 運維成本 3.2需求說明 如下,當我們點擊商店詳 ......

    uj5u.com 2023-04-20 08:24:03 more
  • day02-短信登錄

    功能實作02 2.功能01-短信登錄 2.1基于Session實作登錄 2.1.1思路分析 2.1.2代碼實作 2.1.2.1發送短信驗證碼 發送短信驗證碼: 發送驗證碼的介面為:http://127.0.0.1:8080/api/user/code?phone=xxxxx<手機號> 請求方式:PO ......

    uj5u.com 2023-04-20 08:23:11 more