更多技術交流、求職機會,歡迎關注位元組跳動資料平臺微信公眾號,回復【1】進入官方交流群
近期,火山引擎 DataLeap 上線“動態探查”能力,為用戶提供全域資料視角、完善的抽樣策略,提高資料探查的靈活度以及回應速率,
傳統的資料探查是基于庫表的全量探查,由后端引擎執行,通過自動化檢查資料成分、關系、格式等,以報告形式展示探查后列的統計分布結果,避免資料質量導致專案開發、上線出現問題,主要應用于元資料管理、資料研發、數倉開發以及資料治理等環節,滿足使用者對資料質量初探的需求,
但在資料量級大、用戶需要探查資料明細或需要資料預處理操作時,由于傳統的資料探查要對全量表進行檢測,導致無法實時產出報告、等待時間變長,靈活度低,且無法跟蹤資料明細,
針對上述痛點,火山引擎 DataLeap 在傳統資料探查基礎能力上,進一步增強了動態探查能力,其特點在于:
-
基于大資料預覽探查,支持對資料進行函式級別預處理,
-
資料探查結果秒級更新、實時回應,
-
與資料監控聯動,有效打通資料探查到質量分析倍訓,
據介紹,DataLeap 動態探查的物件是抽樣資料,支持連續抽樣(按照默認順序連續抽樣前 x 條資料)、過濾抽樣(使用 where 過濾陳述句過濾)、隨機抽樣(隨機抽樣 x 條資料)3 種模式,用戶可對資料進行預處理,實時、動態獲得統計分布結果,具備靈活度高、實效性強的特點,
火山引擎 DataLeap 動態探查使用流程
除此之外,DataLeap 動態探查具備對探查結果基礎分析能力,包含列洗掉、過濾、排序等,用戶對探查結果的每一次操作都會被記作一次操作,多次操作串聯成操作堆疊,DataLeap 支持用戶自由修改或刪減操作堆疊里的步驟,并實時查看最新結果,
火山引擎 DataLeap 動態探查操作堆疊
火山引擎 DataLeap 資料探查報告
目前,DataLeap 動態探查可以應用在以下三個場景中:
-
場景 1:用于分析型探查場景,用戶可利用 hive 基本函式,如 get_json_object,將列進行資料提取,
-
場景 2:與探查報告打通,用戶點擊探查報告中的統計值,即可跳轉到資料表格,并應用具體行過濾函式,
-
場景 3:用于資料過濾后的探查場景,用戶通過過濾和分組條件進行寫條件探查,例如校驗 status=0 時 current_price 為 0 的占比,
DataLeap 是火山引擎數智平臺旗下產品,提供資料集成、開發、運維、治理、資產、安全等能力,幫助用戶提升資料研發效率、降低管理成本,加速推動企業的數字化轉型,目前已經應用于泛互聯網、制造、新零售、汽車等領域,
點擊跳轉火山引擎DataLeap了解更多
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/552277.html
標籤:大數據
上一篇:V$INDEX_USAGE_INFO中找不到監控索引資料的尷尬經歷
下一篇:返回列表
