假設我們有一個資料源,它可以是一個 blob 存盤或表。
當新資料進入資料源時,主要目的是創建一種機制,使我們可以首先使用某些統計測驗檢查新資料的資料質量,然后如果通過這些測驗,我們應該能夠結合新資料資料與以前的資料源。必須對資料源進行版本控制。
此外,如果新資料未能通過統計測驗,那么我們應該有一種機制來提醒開發人員,然后如果開發人員決定覆寫,那么我們應該能夠將新資料與以前的資料源結合起來。
這個特定部分必須手動觸發,這是我們檢查新增量的起點。這樣做之后,我們需要觸發 Azure DevOps Pipeline。
我們可以為此使用哪些工具?有沒有我們可以遵循的參考指南?我需要在 Azure 中實作它。
主要問題:
- 資料集:能夠版本化。
- 在測驗之前檢測 delta 并將其存盤在單獨的位置的方法。
- 允許開發人員進行覆寫的方法。
- 進行統計檢驗。
uj5u.com熱心網友回復:
假設您的整個作業流程中的步驟可以分解為離散的步驟,相對冪等或可以在每個步驟設定檢查點,并且運行時間不長,那么是的,您可以使用Durable Functions進行探索,這是Azure Functions的高級編排框架.
與您的目標相匹配的建議:
- 資料集:能夠版本化 -您應該在生成期間在資料集中明確地對此進行版本化。如果這不可行,您可以根據資料集元資料組合的散列派生版本。
- 在測驗之前檢測 delta 并將其存盤在單獨位置的方法 -取決于 delta 對您的資料集意味著什么。您可以讓代碼檢查表存盤中條目的先前哈希,并與當前哈希進行比較。
- 允許開發人員進行覆寫的方法 -是的,請參閱Durable Functions 中的人機互動。
- 執行統計測驗 -如果每次通過要運行多個測驗,則考慮使用扇出/扇入模式。
轉載請註明出處,本文鏈接:https://www.uj5u.com/net/514400.html
上一篇:如何在FlutterDart中創建混合大小寫和數字的驗證規則
下一篇:如何驗證來自檔案流的錯誤輸入?
