MTSC2020中國互聯網測驗開發大會深圳站,于 2020 年 11 月 20 日至 21 日在深圳寶立方國際酒店召開,為中國質量保證行業奉上一場為期 2 天的技術盛宴,500+ 來自世界各地的測驗精英們匯聚一堂探討交流,來自阿里巴巴淘系技術部的董福銘(吾銘)、黃俊(豆豆)在主會場分享議題《手淘AIOPS實戰-訊息全鏈路智能監控》,現場反響非常熱烈,
中國互聯網測驗開發大會 Mobile Testing Summit China(簡稱 MTSC)是由國內最大的移動測驗技術社區 TesterHome 發起的軟體測驗行業技識訓議,大會以“軟體質量保障體系和測驗研發技術交流”為主要目的,MTSC 大會于 2015 年舉辦第一屆至今,已成功舉辦了六屆,共有 1000+ 家企業,10000+ 測驗工程師、測驗經理、CTO 參會,受到了全行業的廣泛關注,是中國互聯網質量保證行業的頂級會議,
★ 議題簡介:
《手淘AIOPS實戰-訊息全鏈路智能監控》介紹如何通過SDK實作應用內鏈路日志聚合、采樣率控制、統一降級開關等功能,打通客戶端到服務端鏈路,實作IM端到端秒級排查,通過實時計算實作訊息核心指標到達率/時延的實時監控,使用AI檢測演算法,替代傳統的規則監控方案,解決規則告警準確率低、時效性低、規則配置復雜與耗費人力等諸多問題,通過NLP進行輿情智能分類,并結合全鏈路資料對預警問題進行分析定位,打造全鏈路智能監控排查平臺,
★ 業界點評:
艾輝(融360高級技術經理、《機器學習測驗入門與實踐》作者) :
手淘AIOps實戰案例的技術設計及應用效果讓人印象深刻!
區別于一般的鏈路監控,該方案用多種演算法檢測代替規則檢測,在準確率、召回率等方面都有大幅提升,
Holmes例外檢測平臺更是實作了演算法模型在鏈路例外檢測場景的工程產品化,
很值得業界同行朋友們學習借鑒,
孔令云(美柚測驗總監):
手淘AIOps利用AI技術,在訊息全鏈路監測中實作了百億級訊息資料的實時監控和例外檢測,極大提高了訊息到達率、及時性,為訊息鏈路質量保障提供了堅實的技術支撐,同時也為行業樹立了AI測驗應用的光明燈塔,
前言
手淘App作為雙十一最核心的消費者購物陣地,其中必然離不開第三個Tab頁-訊息,訊息的價值在于打造新零售業務商業連接,幫助消費者進消費決策,每天消費者和商家溝通商品相關的價格、質量和型號以及款式和各種交易咨詢及售后服務等;來自天南地北的淘友齊聚在直播間和群聊,不停的點贊,分享和蓋樓;每天消費者接收著品牌號、官方號以及系統物流通知,平臺營銷活動通知,不想錯過每一有價值的咨詢和活動優惠;最近幾年大促有很多新穎的互動玩法,從“戰隊群”到“親情號”再到今年的“養貓互助游戲”,都離不開訊息中臺的支撐,同時也給訊息穩定性保障帶來了壓力和挑戰,訊息質量團隊在傳統保障策略的基礎上,在智能化監控領域做一些探索和嘗試,
訊息業務場景及系統架構
訊息業務場景包含了社互動動、 客服溝通、交易提醒、優惠通知、品牌資訊等屬性,核心目標是打造新零售業務商業連接,幫助消費者進消費決策;
為了支撐上面的業務場景,整個訊息系統鏈路比較復雜,同時IM領域和其他業務最大的不同,它是端到端的鏈路,同時又要維護長連通道,訊息從客戶端上行鏈路到IM服務端分布式系統,然后再通過長連通道,下發到客戶端下行鏈路,最終在端側進行訊息上屏;
訊息全鏈路穩定性保障
隨著業務的不斷發展,訊息系統也在不端進行架構升級,19年之前,我們面臨一些問題,主要集中在鏈路長、排查效率低、沒有端到端排查能力,系統監控分散,實時性差等;
結合著這些問題,我們就打造了全鏈路日志SDK,通過AOP的方式,不侵入業務代碼,作為基礎能力,同是融合了Metrics、Tracing、Logging三個唯獨,進而實作全鏈路日志方案:
整體效果:打造手淘訊息全鏈路智能監控排查系統,賦能訊息及上層業務,實作業務指標實時監控、輿情智能分析、端到端全鏈路自動排查,有效縮短了線上問題從發現到定位的時間,提升排查效率達70%以上;日志量每天減少數百億條;日志存盤資源和采集資源減少50%以上;累計服務多個APP;問題排查次數達200W+;
智能監控在全鏈路體系實踐經驗
? 傳統監控的現狀和痛點
? 智能監控-特點&優勢
特點:
學習歷史資料,分析當前指標曲線趨勢是否例外
基于以往資料,進行預測未來指標走勢
優勢:
演算法檢測代替規則檢測
告警準確率高
更早發現例外情況
可適應業務發展帶來的趨勢變化
? 智能監控系統架構
基于AI演算法的例外檢測,具有智能化、輕量級、易接入、可擴展特點,演算法檢測替代傳統的規則監控解決準確率低、時效性低、配置復雜等問題,核心模塊覆寫了資料打標、訓練、模型生成等,特征方面包含了統計特征、分類特征、擬合特征等提取方法,演算法方面主要涵蓋了多種檢測演算法和預測演算法,
? 演算法檢測效果
? 智能輿情全鏈路特點
CNN文本分類+DBScan相似演算法,精細聚類輿情;
輿情問題結合全鏈路排查體系,智能定位原因,提高排查效率;
分鐘級定時巡檢預警,結合AI例外檢測,避免問題故障,
? 智能輿情全鏈路體系架構
? 智能輿情全鏈路實踐效果
【輿情聚類】應用文本聚類、NLP演算法,1w+文本聚類時間1min內
【預警效果】預警有效率95%以上,問題排查率70%
【預警問題】有效預警線上問題50+,規避線上故障
【演算法呼叫】日均呼叫600次+
【接入業務】手淘、千牛、淘寶特價版等
Holmes例外檢測平臺
基于AI演算法的例外檢測平臺-Holmes,具備智能化、輕量級、易接入、可擴展特點,
使用例外檢測演算法替代傳統的規則監控,解決準確率低、時效性低、配置復雜等問題,
只需要簡單的4步配置,即可完成指標接入:
在實時檢測方面,集成了無監督學習和有監督學習,主要運用了高斯分布、STL、孤立森林、XGBoost等;
在資料預測方面,集成了LSTM、Prophet、三次指數平滑等,
未來展望
Holmes例外檢測平臺是淘系技術質量團隊打造,在智能化測驗領域的一次實踐,未來我們希望利用AI演算法實作業務全方位智能化監控和問題定位,覆寫更多的資料型別、打造通用的演算法模型,同時我們也在全鏈路監控排查、智能輿情處理等多方面進行探索,期待后續跟大家分享,
? 研究方向:
【非結構化日志】【風季資料】【選舉策略】【智能輿情】【根因分析】
? 研究目標:
1、監控資料:時序指標資料(實時/離線)、業務日志資料(客戶端/服務端)、用戶輿情資料
2、檢測模型:模型需要通用化,具有預測基線的能力,同時提供豐富演算法庫涵蓋多種檢測演算法
3、演算法指標:實時性ms級別回應、正確率>95%、覆寫率>90%,召回率>95%
4、發布計劃:目前已在阿里集團內開放,希望后面能在業界開放使用
MTSC2020中國互聯網測驗開發大會深圳站現場
淘系技術部-質量團隊-誠招英才
負責保障整個手淘、天貓主戰的業務質量,這里有豐富業務場景和技術挑戰,我們將持續建設及完善這個那個淘系穩定性、提升用戶體驗,如果您有興趣可講簡歷發至:fuming.dfm@alibaba-inc.com 期待您的加入!
? 拓展閱讀
作者|吾銘、豆豆
編輯|橙子君
出品|阿里巴巴新零售淘系技術
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/239164.html
標籤:AI
上一篇:Presto在車好多的實踐
