作者: 王鵬飛
IoT應用程式會生成大量的資料,雖然PostgreSQL功能強大,但能應用規模不多,使用TSDB可以將應用場景規模放大20倍,并應用在IoT領域,
我們所說的“物聯網”的根本,并不是字面意義上的“物”和“連接”,這些都早在十年內不是痛點了,而“資料”才是當前互聯網面臨的最大難題,這表示很多資料,在每天有更多的生產業務、食品生產、火車票等系統連接到互聯網并實作自動化,創造出越來越多的傳感器資料流,這數以百萬計的每個設備的資料量將倍數增加,你就會得到一個指數級增長的資訊流,這些大資料將被合理的使用,用于做出更好的業務決策,給最終用戶提供更好的體驗,
大多數從事這些計劃的工程團隊最終都將所有這些資料存盤在多個資料庫中:元資料存盤在關系資料庫中,時間序列資料存盤在NoSQL中,然而,這些資料庫的操作方式不同,運行多個形資料庫體系增加了不必要的操作和應用程式復雜性,
其實我們沒必要那么做,這里將向您展示如何將所有物聯網關系和時間序列資料保存在PostgreSQL中,以及這如何帶來更簡單的操作、更好得關聯資料和更好的易用性,我們還將強調PostgreSQL與物聯網相關的其他強大的功能,包括查詢能力、靈活的資料型別、地理空間支持和豐富的生態系統,
如果您覺得TSDB是您的物聯網專案的理想資料庫,那么請聯系我們提供幫助,
一. PostgreSQL 能有很好的擴展性
“PostgreSQL能擴展應用在我的IoT資料比率?”經常有人會這么問,PostgreSQL的擴展性是大家所關注的首要問題, IoT的后端需要支持高資料攝取率,而隨著資料集的增長,寫入PostgreSQL將會比較緩慢,

經過我們深入研究,對于時間序列資料,如果資料庫的架構方式正確,您可以將PostgreSQL擴展到每秒數十萬次插入,即使是在單一節點上,所以我的團隊滴普科技FastData團隊開發了TSDB,這是我們推出的一個新的時間序列資料庫,TSDB通過時間和空間劃分資料,同時向用戶呈現單個連續表(稱為“超表”)實作顯著性能改進,最重要的是,TSDB在這樣做時就像一個普通的PostgreSQL實體(實際上打包為PostgreSQL擴展),我們通過將10億行資料分別加載到PostgreSQL和TSDB進行了基準測驗,結果如下:

簡而言之,在按比例插入資料時,TSDB快20倍以上,在此對比測驗中,TSDB的平均插入速率為111k行(1.11M度量)/秒,而PostgreSQL插入性能下降到5k/秒,但最重要的是,TSDB可以擴展到10億行,
二. 能使用一個資料庫,為什么要用兩個
我們剛剛看到TSDB如何將PostgreSQL擴展到大型作業負載,比如在物聯網中,現在讓我們看看它讓我們做什么,
能夠存盤時間序列資料并存盤關系資料是非常強大的,首先,它有一個更簡單的堆疊,代替兩個資料庫(傳感器資料的NoSQL、傳感器元資料的關系資料),兩者之間包含各種粘合代碼,更不用說有兩個資料庫的操作難題……所以,您只需要一個資料庫:

我們拿備份功能來舉例,運行兩個不同的資料庫意味著兩個不同的備份程序(以及更長的停機時間),此外,如果系統是獨立備份,則存在資料完整性問題的風險,想象一下這樣的情況:你的時間序列資料有上一個小時的備份,但是你的關系資料昨天被備份了,那么您現在的時間序列資料參考了元資料丟失了,
一個資料庫簡單性設定會有其他優勢:更簡單的堆疊甚至在邊緣很有用,那里運行一個資料庫足夠困難(由于資源限制),更不用說兩個了,只需要一個資料庫就能使物聯網原型設計更容易,這樣還有助于降低大型龐大的物聯網專案的復雜性,
三. 關于TSDB中的context
一個用于時間序列資料和元資料的單一資料庫不僅可以簡化堆疊:它還允許您向傳感器資料添加背景關系,因為如果您不知道您要測量什么,那么收集資料有什么意義?
這是一個例子:我們正在合作的一家公司正在開發一個物聯網應用程式來監控制造程序,這個應用程式涉及到仔細檢查裝配線資料來發現缺陷,確保一個高質量的產品,大多數裝配線資料本質上是時間序列:{machine_id、時間戳、測量},然而,如果沒有所有其他的操作元資料,這些資料本身就是毫無意義的:如當時的機器設定、行資訊、移位資訊等等,他們已經嘗試將資料去規范化,但這在每次測量上增加了不合理的資料膨脹,
使用TSDB和PostgreSQL,可以保持元資料標準化,并在查詢時添加必要的背景關系(通過SQL聯接),例如,通過像這樣的查詢:(按機器顯示特定線路上給定型別機器的平均溫度,間隔5分鐘統計)

四. 使用SQL的好處
現在讓我們聚焦物聯網專案的價值:收集、分析和處理資料,以提高效用/效率,減少停機/浪費,并提供更好的產品和服務,換句話說,您需要的不僅僅是一個資料存盤,您還需要一種簡單的方法來從資料中獲取更有效的資訊來提供一些方案的決策,
這就是SQL的作用所在,雖然在過去幾年中NoSQL相當流行,但事實是SQL相當強大,正在開始回歸(這就是“NoSQL”現在被理解為“不僅是SQL”的原因之一),
SQL包括相當多的有用的功能:例如,謂詞(由輔助索引支持);多個聚合和排序;視窗函式、數學和統計函式庫;等等,舉個例子,以線性和對數尺度繪制天花板傳感器的溫度變化統計如下:

TSDB通過添加時間序列分析所需的新函式來增加SQL,例如,如上面一個例子的time_bucket和最后一個查詢,
SQL還有另一個優勢,您不需要培訓工程師學習新的專門查詢語言(或雇傭懂新的查詢語言工程師),非技術用戶也不需要嚴重依賴工程(和工程發布周期)來處理資料問題,換句話說,通過利用SQL,您可以將時間序列資料民主化,讓組織中有更多的人員訪問它,
五. TSDB支持靈活的資料型別(包括JSON)
還在羨慕MongoDB支持在關系資料庫中擴展JSON?當您開始構建物聯網產品時,您可能不知道您將關心哪些資料,也不考慮到特定的資料模式,或者以后您可能需要非常特定的資料結構(例如,陣列),
PostgreSQL支持廣泛的資料型別,它允許半結構化資料(通過JSON/JSONB支持),但也允許各種其他資料型別,包括許多數字型別、幾何型別、陣列、范圍型別和日期/時間型別,我們的一些物聯網客戶在JSONB中存盤傳感器資料,而且還允許建立索引,如下圖

六. TSDB在地理空間方面的優勢
目前很多系統的資料中通常有一個地理空間組件,表示物理東西存在于特定的空間中,特別是當事物在移動時,地理空間資訊就很重要了,我們經常看到的一個物聯網用例是資產跟蹤:例如,跟蹤用于車隊管理的車輛,優化路線,減少破壞等,
TSDB被打包為PostgreSQL擴展,這意味著您可以同時運行許多其他PostgreSQL擴展,一個強大的擴展是PostGIS,它給PostgreSQL增加了豐富的地理空間支持(包括新的資料型別、功能等),通過結合PostGIS與TSDB,您可以結合地理空間和時間序列資料創建一個可擴展的時空資料庫,下圖是紐約的出租車在一個時間段內的時空資料在grafana的展現,

七. 基于PostgreSQL的TSDB是一個真實的生態系統
時間序列資料庫不會單獨運行,它們需要連接器,比如kafka這樣的資料總線、Spark這樣的流處理引擎,或者Sableau這樣的BI工具,大多數時間序列資料庫都相對較新,而且沒有足夠的時間圍繞它們開發生態系統,另一方面,PostgreSQL已經存在了20多年了,社區已經圍繞著它建立了一個廣闊的生態系統,就像PostgreSQL一樣,TSDB與最流行的資料總線、流處理器、資料可視化和BI工具(如下面所示的工具)配合一起使用,

八. 基于PostgreSQL的TSDB具有很好的可靠性
你為物聯網選擇的資料庫需要可靠的(而不會在凌晨3點叫醒你),與網站或移動應用程式不同,物聯網應用程式從一開始就通常部署在高價值的場景中,如果使用資料庫監視生產線,則該資料庫將不能出現停止或者關閉的情況,
這就是我們選擇在PostgreSQL基礎上擴展TSDB,在過去的20多年中,PostgreSQL已經在不同行業的各種關鍵任務應用程式中進行了驗證和應用,還有另一個管理工具的生態系統,可以使可靠性更容易實作:包括流媒體復制、熱待機等等,TSDB繼承了這個相同級別的可靠性和生態系統,
九. 選擇PostgreSQL,選擇TSDB
現在物聯網的世界里有很多聲音,很難決定為你的物聯網專案使用什么資料庫,但無疑最好的選擇就是PostgreSQL,因為TSDB最終擴展到理物聯網各個領域并優化時間序列資料優化SQL,
如果您正在構建一個新的物聯網專案或當前正在與復雜的物聯網之中難以抉擇,請選擇PostgreSQL并使用TSDB,
如果你對以上內容感興趣且需要幫助的話,可以登錄https://www.deepexi.com/product-new/27了解更多TSDB產品詳情,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/289940.html
標籤:其他
