這是我的問題:我經常需要在一些 ETL 代碼重構之間比較相同的 postgresql 表(或依賴于它的視圖),以檢查我的開發中的非回歸。
假設我有一個要重構的 ETL 代碼,它會定期將資料上傳到表中。目前,一旦我的修改完成,我通常首先從 postgresql 下載我的資料作為 .csv 檔案,然后清空它,使用我重構的代碼再次填充,然后再次下載資料。然后,我在 Jupyter Notebook 中使用 Python 比較 .csv 檔案。
這似乎根本不是要走的路。尤其是假設我是唯一一個在操作期間使用該表的人,還有很多其他的東西我不能在這里一一列出。
有更好的方法嗎?
uj5u.com熱心網友回復:
在我看來,你有正確的方法。CSV 匯出操作沒有什么神奇之處:您使用的任何工具都會運行查詢并將其結果集格式化到檔案中。任何其他前后比較操作都必須運行相同的查詢。
如果您在活動資料庫上進行這種回歸測驗,在您的測驗記錄上放置某種獨特的標簽可能是明智之舉,可能會ETLTEST-在您的客戶名稱之前,所以它是ETLTEST-John Bull. 然后你可以讓你的查詢只處理你的測驗記錄。并確保您為 ORDER BY 做一些可靠的事情。
Juptyer 似乎是一種區分 csv 檔案的復雜方法。大多數作業系統都有輕量級的快速 difftools。
轉載請註明出處,本文鏈接:https://www.uj5u.com/gongcheng/451179.html
標籤:PostgreSQL 测试 等
上一篇:Postgresql(psycopg2.errors.DuplicateTable)關系“idx_xxx_geometry”已經存在
