我正在嘗試實作一個大約每 5 秒更新一次的實時或接近實時的管道。
我創建了一個生產者,它每秒將 1 條記錄寫入 kinesis 資料流,并將其連接到運行 spark 流的膠水作業。運行作業后,我觀察到 s3 和 Athena 中資料的更新,并觀察到批處理和保存新資料需要 2-3 分鐘。
我將作業人員的數量從 2 個增加到 20 個,但這只會加快它每 1-2 分鐘更新一次。
這是火花的限制嗎?他們怎么說火花接近實時而不是實際實時?
我將嘗試使用 lambda 和 dynamodb 更快地實作某些東西,但我真的很想知道使用 Glue 進行 5 秒更新是否可行。
謝謝!
uj5u.com熱心網友回復:
默認情況下,AWS Glue 在 100 秒的視窗中處理和寫出資料。這允許有效地處理資料并允許對晚于預期到達的資料執行聚合。您可以修改此視窗大小以提高及時性或聚合準確性。
您可以嘗試使用此功能并更改windowSize
轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/435509.html
