如何通過機器學習和演算法模型，構建華為預測服務-有解無憂

預測服務基于華為分析服務（Analytics Kit）上報的用戶行為資料和屬性，結合機器學習技術，實作特定目標人群的精準預測，針對預測生成的細分受眾群體，開展和優化相關運營舉措，如通過A/B測驗評估運營活動效果、遠程配置特定受眾群體的專屬套餐等，可有效幫助產品提高用戶留存，增加轉化，

使用預測服務前，需要先集成華為分析服務的SDK，這樣系統才可以順利開展流失、付費、復購以及自定義預測任務，在詳情界面可以查看相關預測人群的高中低概率對應人群數量，及其相應的屬性分布（比如詳情頁的高概率流失人群，表示該人群在未來7日內有較高概率流失，您可以通過相關卡片，觀察其行為特點并制定針對性運營計劃），

預測任務和預測詳情界面如下所示：

*資料為模擬

預測模型構建流程

在構建預測模型的時候，首先是確定我們要預測什么，即確立預測的統計口徑，然后根據統計口徑圍繞用戶特點尋找對應相關的特征，通過清洗和采樣得到資料集，我們把資料集二八分得到訓練集和驗證集，在線下進行不斷實驗找到最優特征和引數，最后根據相關資料在線上調度訓練預測任務，

具體流程圖如下所示：

特征、模型選擇和調優

特征探索

專案初期，我們分析資料，從屬性、行為、需求三方面入手，尋找與業務有可能相關的變數，構建特征表，比如用戶近7天的活躍天數、使用時長等行為資料，

在確定特征之后，下一步就是在實驗中進行模型的選擇和調優了，業界常用的樹形模型有xgboost、隨機森林、GBDT等，把我們的資料集用這幾種模型進行訓練，發現在隨機森林上效果較好，其采用bagging策略提高模型擬合能力和泛化能力，

除了模型引數，也要考慮采樣比，尤其是對于付費預測這種正負樣本懸殊的情況（大約1:100），綜合考慮Accuracy和Recall, 付費訓練時將正負樣本比例采樣至1.5:1, 以提高模型付費用戶召回率，

超參與特征確立

訓練出了合適的模型，但并非所有特征都是有用的，無用特征除了可能會影響模型效果，也會減慢訓練速度，在初期版本中，通過實驗確定合適的超參和特征，特征按照特征重要性排序選擇權重較大的，在線上版本中配置對應的超參和特征，

在版本上線之后還需要不斷觀察資料、分析資料、補充特征，我們在后續版本中主要新增了事件特征與趨勢特征，補充后總計400+特征，

自動超搜索參

在挖掘出更多的特征之后，如果都是全量特征訓練可能效果未必會好，而且也會非常耗時，同時，可能每個App訓練時可能最優的超參和特征并不相同，最好是每個App分開訓練且使用自己最優的超參和特征，

為了解決這些問題，我們增加了自動的超參搜索，可以在配置好的引數空間里搜索，找到并保存合適的訓練引數，搜索完之后的最優超參保存在如下結構的hive表中，

當前的整體流程以及外部依賴如下所示：

未來方向

在未來提高模型效果上，我們也有很多思考，預研的方向大致如下：

l 神經網路

當前的特征規模不斷擴大（400+），而用戶行為的規律又十分復雜，除了使用原有的樹形模型，也在嘗試利用神經網路強大的表達能力，結合行為特征訓練出更準確的預測模型，

l 聯邦學習

對于各App、各租戶資料不可互通的問題，可以通過橫向聯邦學習聯合各個App、各個租戶間的模型，在資料不互通的前提下協同訓練，

l 時序特征

不同App的用戶每周上報數百個事件（涵蓋1000+種類），訪問近百個頁面，通過這些時序資料可以構造出不同用戶的長短期行為特征，提高不同場景預測的準確率，用戶訪問頁面的行為有較高的時序特點，可以加工成時間序列特征，有較高的研究價值，

l 特征挖掘和加工

對目前的特征集擴充、補充，一方面挖掘更多的相關特征比如平均使用間隔、設備屬性、安裝渠道、國家省市等特征，另一方面基于現有特征通過離散化、歸一化、開方、平方、笛卡爾積、多重笛卡爾積等等方法構造更多新特征，

欲了解更多華為預測服務詳情，請點擊>>

>>訪問華為開發者聯盟官網，了解更多相關內容

>>獲取開發指導檔案

>>華為移動服務開源倉庫地址：GitHub、Gitee

關注我們，第一時間了解華為移動服務最新技術資訊~

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/273682.html

標籤：其他

上一篇：[云資料中心] 《云資料中心網路架構與技術》讀書筆記第七章構建多資料中心網路（1/3）

下一篇：【ElasticSearch入門】Windows下ElasticSearch、Head安裝及分布式集群搭建