在 BigQuery 中,您可以引數化一些資料型別(參考)。例如:
DECLARE x STRING(10);
DECLARE y STRING;
這些引數不會傳播,但會在插入/分配期間進行檢查。
我現在將資料從 PostgreSQL 資料庫推送到 BigQuery。我有一個 PSQL 模式,其中所有字串都有一個設定的最大長度。這些最大長度從大約 1(對于類似列舉的值)到 1000 (對于自由文本)不等。我必須在 BigQuery 中定義一個表架構來推送資料。我對驗證不感興趣,因為我從我的 PSQL 模式中知道進入 BQ 的資料的確切限制。因此我的問題是:
對于我的用例,在任意長度的字串上使用引數化資料型別是否有任何優勢(性能、成本等)?
uj5u.com熱心網友回復:
如果您既不需要強制也不需要語法糖,那么跳過使用引數化是完全合理的。對于派生表保持與原始資料相同的約束,有一個論據,但這實際上取決于您自己的使用模式和習慣用法。
BigQuery資料存盤成本基于實際字串大小,磁區/集群不利用引數化細節。他們不應該影響你的決定。
轉載請註明出處,本文鏈接:https://www.uj5u.com/net/388756.html
上一篇:強制R在set_args函式的引數中應用函式或呼叫變數
下一篇:不洗掉類或添加類[已解決]
