年底啦~2022年即將走到尾聲,不過袋鼠云對產品品質的堅持始終如一,這段時間我們對產品本身以及客戶反饋的一些問題進行了持續的更新和優化,例如新增任務告警,進行了Connector相關功能優化,以及支持跨時間磁區圈群等,
以下為袋鼠云產品功能更新報告第三期內容,更多探索,請繼續查閱,
離線開發平臺
1.任務診斷
用戶痛點:任務一直在等待提交或者等待運行,用戶看不到原因,不知道該如何處理能讓任務盡快跑起來;任務運行了很久都沒有出結果,不知道是什么原因導致,不能有針對性地進行改善,
新增功能說明:對周期和補資料實體將按實體所涉及流程進行診斷,提示例外原因,給出建議方案,另外針對SparkSQL任務還支持根據引數展示給出提升運行性能的調參建議,
任務診斷功能的目的是幫助資料開發進行任務例外原因排查,以便快速采取應對策略解決問題,減少問題持續時間以及技術支持和產研的排查投入,

2.事件任務
事件任務可接收外部http信號,被觸發后才能運行,多用于數堆疊離線任務依賴外部調度系統的任務的場景,


3.條件分支任務
條件分支接收上游依賴一個或多個任務的傳參,當引數滿足某一條件時執行條件分支任務下游的一個或多個分支,在一次運行中沒有被命中的分支對應實體會被自動取消,

4.對接資料安全模塊
用戶痛點:離線的資料權限管理僅支持web層的管理方式,表的權限申請審批通過資料地圖完成,
新增功能說明:數堆疊層面的資料權限管理可選擇統一收攏至資料安全模塊,當hadoop為開源版本3,ranger版本為2.2時,可通過在控制臺配置Ranger和LDAP組件,通過LDAP用戶認證由資料安全模塊實作資料權限管理,權限管理更靈活、粒度更細,

5.Spark SQL臨時查詢展示任務執行進度
Spark SQL臨時查詢展示任務執行進度并實時列印日志,

6.支持專案層面的統一配置項
支持在專案層設定是否在周期和手動任務/臨時查詢中允許ddl操作,

7.其他新增功能項
·支持HANA SQL任務型別:控制臺配置了HANA SQL引擎后離線可創建HANA SQL任務
· 支持Spark on Kubernetes:當控制臺配置的hadoop下的資源調度組件為Kubernetes時,Spark類的任務可正常運行
· 支持檔案拷貝任務:支持hive<->ftp之間的檔案拷貝,僅做拷貝檔案,不做資料決議,相對于通過FlinkX的資料同步可快速完成檔案的遷移,遷移完成后可通過load data的方式加載到表里
8.資料同步欄位映射支持表元資料重繪
用戶痛點:資料同步任務創建完成運行一段時間后,源表或目標表表結構有變更(例如有欄位增減),需要對欄位映射進行重新配置,
產品體驗優化說明:點擊重繪后平臺將自動獲取最新的表結構,已建立的欄位映射將保留,新欄位需要重新映射,

9.補資料對任務增加自定義引數值的臨時替換
補資料的一些場景中需要對自定義引數值進行臨時改寫,此操作只針對本次生成的補資料實體生效,

10.告警規則的告警接收人支持按用戶組添加用戶
選擇用戶組后,用戶組添加或洗掉用戶,對應告警規則接收人也將同步添加或洗掉用戶,

11.python、shell任務依萊澩/任務改造
Python、Shell任務可參考其他任務進行代碼計算,也支持選擇依萊澩一起提交運行,

12.支持通過上傳自定義日歷的方式進行全域引數配置
全域引數分為如下型別:


13.全域自定義調度周期支持兩種時間粒度
用戶痛點:控制臺配置的自定義調度周期僅支持配置到時分,若一批任務的調度周期日期一樣僅時分不一樣則需要配置多個自定義調度周期,
產品體驗優化說明:控制臺自定義調度周期可選擇配置到天/時分,配置到天時,任務中可再選擇具體時分,


14.管理角色的專案創建初始化改造
用戶痛點:admin、租戶管理員、租戶所有者,上述管理角色在專案創建初始化邏輯混亂,租戶層的管理角色可被移出專案,導致管理層角色實際管轄范圍有缺漏,
產品體驗優化說明:上述管理角色在專案創建時默認存在于所有專案中但默認不展示在用戶串列中,且不支持被移出專案,
15.資料開發表查詢互動優化
體驗優化說明
對表按層級做了展示和互動優化,

16.重跑和置成功功能優化
重跑分為僅重跑當前實體和重跑當前實體并恢復調度,后者會帶起下游實體繼續運行,

置成功分為僅把當前實體置為成功狀態和置成功當前實體并恢復調度,后者是會帶下下游實體繼續運行,

17.離線開發首頁改造

18.RESTful資料同步支持多次資料請求和指定資料主體
RESTful資料讀取時可能一次請求得到的資料不完整,需要分多次讀取,因此離線支持配置多次請求引數,可分批進行資料讀取,
資料讀取時回傳格式支持JSON、CSV和XML三種,且對JSON和XML支持指定資料主體,可從回傳資料中用JSONPath的方式指定資料需要從哪個路徑的key下讀取,

19.FTP資料同步支持自定義決議方式
FTP中的檔案若有特殊的決議要求,可自行開發決議代碼,以資源的方式上傳后在決議方式中選擇使用,

20.資料同步任務欄位映射支持欄位轉換
欄位映射中,可選擇資源管理中的資源單個/批量對欄位進行轉換處理,例如可以對源表欄位進行加密/欄位內容轉換等操作后寫入目標表,

21.發布功能優化
· 匯入匯出式發布現可支持作業流任務
· 對于發布包中任務所需要但目標專案下缺失的資料源進行了詳細提示
· 對于上游依賴缺失的任務進行完整提示,而非只發現最近一層缺失上游即終止檢查
· 自定義運行引數支持配置映射值:當前專案系結了一個目標專案后,對于自定義引數可配置其在本專案的值和發布至目標專案后的替換值

22.Spark CBO優化
Spark2.4及以上版本支持開啟CBO,開啟后平臺會按用戶設定的元資料資訊發送頻率把當前專案meta schema的元資料資訊同步給引擎,以提升SparkSQL的運行性能(20%以上),


23.資料同步Oracle表搜索去除大小寫敏感
例如原庫下有Oracle12和oracle333兩張表,在資料同步源表和目標表的選擇表中輸入“oracle”進行表搜索
【修改前】搜索結果為oracle333
【修改后】搜索結果為Oracle12和oracle333

24.批量操作優化
· 支持批量修改調度周期

· 增加操作成功/失敗結果狀態提示

25.任務和實體增加自依賴說明
任務/實體存在跨周期依賴的情況不能在依賴視圖中直接體現,因此在任務/實體的屬性資訊中增加此提示,以方便排查問題,

26.周期實體中按條件殺實體入口調整
按條件殺實體中可以根據任務條件進行批量選中任務,

27.Spark SQL語法校驗從平臺下移到插件
Spark SQL語法校驗從平臺下移到插件,且新增語法檢查按鈕,

28.提交/修改的任務能夠立即生成實體
任務在調度屬性中新增實體生成方式的選項,除每天固定時間點(22點)生成第二天的實體外還可支持立即生成當天的實體,例如一個任務的調度周期是小時,計劃時間是每天每個整點運行,實體生成方式選擇“立即生成”,當用戶在19:55的時候提交這個任務后,調度會立即生成當天20、21、22、23點的實體并運行,

29.FTP資料同步優化
· 在同步時可讀取檔案名稱進行同步:FTP資料源在欄位映射處支持增加檔案名稱欄位,針對每行資料記錄其所對應的檔案名稱并寫到目標表的欄位中

· 對于同步成功的檔案可進行處理:洗掉檔案、重命名檔案、將檔案移動到指定路徑

· 資料同步時列印匯總資訊:檔案總數,檔案內容,檔案資料總行數,總耗時
30.資料同步任務支持上游引數輸入

31.手動任務
新增手動任務的任務型別,用于手動調起執行任務的場景,

32.資料同步向導模式支持CustomSQL填寫
在資料同步任務中,針對RDB類資料源(oracle、MySQL、pg、sqlserver、tdsql、gp、db2、達夢oracle&MySQL、kingbase、gaussdb、tidb、adb、hana、phoenix、solr)作為資料來源時支持通過自定義SQL跨表取數,且在欄位映射中對SQL欄位進行決議,

33.其他體驗優化項
體驗優化說明
·Spark引擎支持3.0版本:Spark SQL/Spark/PySpark任務支持用3.0版本的Spark引擎運行
· Hive支持代理賬號提交任務:在控制臺hiveserver組件上配置自定義引數hive.proxy.enable = true后,hive任務提交時將會由代理用當前用戶身份進行提交
· 任務SQL代碼放開load data陳述句:hivesql sparksql impalasql inceptorsql現可正常使用load data語法運行和提交任務/臨時查詢
· 任務上下游引數傳遞優化:增加支持shell on agent任務的上下游引數傳遞;增加支持作業流內的sparksql、hivesql、shell、python、shell on agent
· 資料同步任務當HDFS磁區不存在時,高級配置中可配置報錯或是寫入空資料:hdfs磁區不存在的時候不要報錯,而是寫入空資料,可配置failedIfPathNotExist 引數,true代表不存在時報錯,false代表寫入空資料
· 統計資料流量統計優化:棄用使用objectSizeCalculator統計物件大小的方法,在ColumnRowData(flinkx上下游資料傳輸使用的物件)中設定一個累加器記錄物件大小
· 資料同步任務向導 -> 腳本模式的轉換優化:資料同步任務在選擇來源和選擇目標時不可從向導轉成腳本,在欄位映射和通道配置時可轉換成腳本并且會提示先保存,轉換成腳本后向導模式下的配置才會保留
· 組件輸出引數修改為非必填項:輸出引數即資料產出表,優化前為必填內容,但在部分客戶的場景中多個任務的資料可能會產出到同一張表的不同磁區,因此輸出引數從必填改為非必填
· 語法校驗優化:可校驗的SQL陳述句覆寫全面,包括DDL、DML及一些特殊語法,例如with as,cache table,語法校驗時間縮短30%
· DAGScheduleX性能優化:離線運維中心可正常顯示百萬級實體日增時的顯示,千萬級實體的依賴拓撲圖可正常生成
實時開發平臺
1.Connector相關新增功能
· 新增支持RocketMQ資料源,作為FlinkSQL的Source端
· 新增支持RabbitMQ資料源,作為FlinkSQL的Source端
· 新增支持StarRocks資料源,作為FlinkSQL的lookup&sink端
· 新增支持Vertica資料源,作為FlinkSQL的sink端
2.Connector相關功能優化
· Redis結果表的向導模式配置,新增「資料型別」、「寫入模式」兩個配置項
· Oracle Logminer的QUERY_LOG_INTERVAL 引數提取,支持在高級配置中進行配置,該引數可以控制查詢間隔時間,防止沒有資料更新時頻繁查詢資料庫造成不必要的壓力
3.實時采集支持自定義SQL
間隔輪詢模式下的實時采集任務,支持用戶自定義SQL對采集源表進行過濾、關聯、計算等計算,然后再寫入結果表,

4.PyFlink優化
創建PyFlink任務時,支持上傳兩種附加檔案:
· 第三方Python包:用于上傳在Python環境中未打包或者只是該任務需要使用的Python依賴
· 附加依賴包:如果您的PyFlink作業中使用了Java類,例如作業中使用了Connector或者Java自定義函式時,可以通過這種方式來添加

5.產品首頁改造
對產品首頁進行改造,面向開發和運維人員,增強了首頁可用性,
· 運維指標:全域統計該租戶下的所有任務運行的指標(后續會支持更多指標,支持自定義看板)
· 告警記錄:進入產品就能查看當前收到的所有專案任務的告警資訊,快速進入各個專案進行排查
· 表熱度:統計各個專案中,【資料開發-表管理】中定義并被任務使用的Flink表

6.對外輸出任務運行日志
當客戶需要對任務運行日志進行深度分析、或者基于日志內容做些監控告警,可以在【任務開發-任務設定】中打開日志推送,在模版內容中配置日志推送的Kafka地址,用戶可以自行消費推送到kafka的日志內容,進行二次開發,

7.SASL認證的KAFKA在不同Flink版本中的支持
Kafka SASL的認證引數在Flink1.10和Flink1.12中是不一樣的,目前只需要在資料源中心配置統一的引數資訊,在任務執行時,系統根據執行的引擎版本在統一引數上自動拼接1.10和1.12不同的引數前綴,
8.Flink1.12適配TBDS
· 實時采集:源表(TBDS_KAFKA)
· FlinkSQL:源表(TBDS_KAFKA)、結果表(TBDS_KAFKA、TBDS_HBASE)、維表(TBDS_HBASE)
9.臟資料管理結果優化
· 洗掉臟資料串列中的欄位列,目前技術上無法支持定位到問題欄位
· 優化臟資料詳情的展示內容,列印整行資料,更容易定位問題資料
資料服務平臺
1.產品首頁改造

資料資產平臺
1.資料質量模塊
· 質量關鍵日志審計,記錄質量相關的關鍵操作,便于查詢與追溯
· 質量規則集匯入,規則集中的規則批量統一管理、統一調度規則集是規則的集合,一個規則集可以代表一個業務領域的質量校驗,從而提高效率、方便管理,后續做質量報告也會基于規則集進行統計

2.引導頁功能優化

3.質量概覽頁改造
質量概覽頁改造,配合數堆疊所有子產品首頁設計風格改造,增強了首頁統一性及美觀性,

4.資料標準映射結果查看及UI優化

客戶資料洞察平臺
1.同步任務可配置環境引數
用戶痛點:不少客戶的Hive至Hbase資料同步任務要運行20多個小時,通過修改同步任務和Hbase的引數可以提高同步的速率,
新增功能說明:支持在任務管理頁面配置資料同步任務的引數,包括任務引數和Hbase引數,且支持用戶添加自定義引數,新增該功能后,用戶可以在產品界面上靈活修改引數資訊,

2.生成并下載分析報告
支持生成群組畫像、顯著性分析、對比分析word報告,報告內容包括分析圖以及分析資料,


3.角色權限點可自由勾選
用戶痛點:每個角色的權限固定,無法滿足不同客戶對不同角色權限的需求,支持用戶自由配置角色的權限才能滿足復雜的權限場景,
新增功能說明:支持自由配置普通角色的系統權限,

4.選標簽控制元件互動升級
用戶痛點:目前選標簽時會按照類目樹、串列形式展示,標簽展示的位置有限,不利于快速查找標簽,
新增功能說明:標簽根據類目平鋪展示,盡可能多地展示標簽 ,且支持搜索;展示熱門、沉默標簽和我收藏的標簽,
本次對標簽選擇空間做了互動升級,可提高業務人員選擇標簽的效率,

5.支持跨時間磁區圈群
用戶痛點:在標簽圈群業務場景中存在跨時間磁區圈選用戶的場景,如“活躍度”這個標簽,業務需要圈選出5月2號是“高活躍”、6月2號變成“低活躍”的這批用戶,進行一些激活措施,維持用戶活躍度,
新增功能說明:標簽圈群時,支持用戶選擇某個時間的某個標簽值進行圈群,完成跨時間磁區圈群,

6.標簽元資料增加業務口徑、技術口徑欄位
標簽基礎資訊中,支持用戶填寫標簽的業務口徑與技術口徑,

7.個體畫像詳情展示形式優化
用戶痛點:實際很多情況下標簽名稱、標簽值比較長,個體畫像頁展示不全,無法一眼看到關鍵資訊,
產品體驗優化說明:畫像詳情頁的標簽名稱、標簽值換行展示,

8.自定義標簽
支持用戶自定義上傳內容與標簽大寬表的欄位關聯鍵,

9.其他優化項
·資料安全對接Ranger:底層對接Ranger并適配Trino SSL,可在資料安全產品控制標簽表
· 匯出資料受行級權限控制:群組串列的資料匯出也受行級權限控制,保證權限的一致性
· Trino對接底層Ranger權限:在Ranger中,Trino可控制表、欄位的權限,但不能控制行級權限,適配Trino SSL
指標管理分析平臺
1.指標結果閾值告警
針對指標計算結果可設定監控告警規則,及時發現指標結果資料的準確性,實時告知接收人,

2.資料模型選擇磁區表之后增加磁區欄位與日期格式選擇
資料表中存在多個磁區的情況,故需要用戶自主選擇,同時針對磁區欄位的日期格式做出選擇,

3.指標任務增加任務自身的跨周期依賴

4.指標平臺支持對接Kudu進行資料存盤
指標平臺支持對接Kudu進行資料讀寫,完成指標開發、管理、調度、運維等全生命周期流程,
5.創建專案時,增加選擇API對接HBase資料源欄位
以便用戶在主流程操作下,可以對該項進行設定,

6.頁面上增加圖文說明,幫助用戶理解產品邏輯
· 資料模型增加全量磁區、增量磁區、拉鏈表、非磁區表的圖文解釋說明

· 行級權限增加靜態行級權限、動態行級權限的圖文解釋說明

想了解或咨詢更多有關袋鼠云大資料產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠云官網:https://www.dtstack.com/?src=https://www.cnblogs.com/DTinsight/archive/2023/01/03/szbky
同時,歡迎對大資料開源專案有興趣的同學加入「袋鼠云開源框架釘釘技術qun」,交流最新開源技術資訊,qun號碼:30537511,專案地址:https://github.com/DTStack
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/541160.html
標籤:其他
