file

導讀： 眾所周知，資訊時代下的資料就是能源，就是生產力，但是面對海量、紛繁的資料，特別是在金融領域，如何充分地利用資料是核心問題，本次分享主要想和大家一起探討下，在金融風控場景下，如何通過資料對齊模型和業務目標，哪些資料、方法可以應用于風控模型，通過哪些指標可以正確地評估模型效果，以及最終如何用資料科學解釋模型結果，今天的介紹會圍繞下面四點展開：

科學定義資料
科學應用資料
科學評估資料
科學解釋資料

01 科學定義資料

1. 金融風險管理

file

信貸業務本質是儲蓄轉化為投資的一種形式，類比于其他的互聯網業務，電商平臺的推薦系統實作的是客戶和商品需求之間的精準匹配，廣告平臺的投放系統實作的是客戶和潛在興趣之間的精準匹配，互聯網信貸業務的風險管理目標就是實作資金供給方和資金需求方的精準風險匹配，在風險匹配的兩端，資金供給方期望的風險目標是明確的，所以風險管理的核心是預測資金需求方的風險，從而進行精準匹配，接下來我們講講風險定義以及如何科學地預測風險，

2. 科學定義資料

file

在信貸行業內，對風險最常見的定義是年化風險，即年化不良金額除以年化余額，這是因為簡化收益大多是按照年化定價 - 年化風險 - 年化資金成本來計算的，一整包資產的年化風險受很多因素影響：逾期的用戶分布，逾期的金額分布，放款的久期分布，雖然年化風險從業務上來看是個非常直觀的指標，但如果要直接預測年化風險則是非常困難的，從更易實作的角度來看，預測逾期的用戶分布會更直接而簡單，

假設有一個模型可以較好地預測人數逾期率，那么我們怎么與年化風險目標掛鉤呢？即模型的目標如何與業務的目標對應，在真實的業務場景中，我們很容易發現，資產的年化風險與人數逾期率（MOB12）的比值是一個在1附近的數值，對于這個數值的解讀，即當年化風險除以人數逾期率顯著大于1時，意味著整體額度過高，尤其是風險相對低的客戶的風險敞口沒有控制好；當年化風險與人數逾期率接近時，意味著額度和風險匹配得比較好；而當年化風險除以人數逾期率顯著小于1時，意味著整體的額度策略過于保守，雖然從風險角度講是好事，但從業務視角看其實是制約了整體的余額規模，經過一定量的迭代以后，往往都會使得年化風險和人數逾期率之間的關系趨近于1，這時候如果人數逾期率預測得足夠準確，那么意味著年化風險預測就會很容易，

file

在前面的定義中提到了“逾期”的概念，那么如何定義逾期，以及如何定義用戶的“好”“壞”呢？

逾期本身是一個隨時間變化的狀態量，比如在約定還款的15天內都沒有還款，而在第16天成功還款，那么在前15天是逾期的，而第16天之后則不是逾期狀態，顯然，逾期的時間越長越壞，最終逾期的概率越高，如何選擇一個合適的時間尺度去定義一個用戶是逾期的“壞”用戶？在實際操作中，我們往往通過觀察逾期N天后到最終逾期180天以上的概率，比如說當這個概率已經大于90%時，我們就可以認為這個N已經是一個很好的時間刻度了，在實際業務中，我們一般取N=30，

同樣的，對于“好”的定義，一樣有一個時間問題，顯然，觀察越長時間沒有逾期發生，用戶“好”的概率越高，然而對于用戶的觀察時間越長，會導致可用于學習的樣本量越少（尤其是新發展的業務本身資料就很少），并且樣本都是過去很久以前的資料（這在內外環境快速變化的情況下影響更大），

那么如何設定一個合適的觀察時間窗呢？通過右側的vintage曲線圖，我們可以看到，隨著時間的推移，不斷有新的用戶發生逾期，但新逾期發生的增速在緩慢地下降（斜率在變小），理想情況下，我們希望找到斜率為0的那個時間點作為觀察視窗；而在實際操作中，我們往往根據業務的發展階段和vintage曲線的斜率變化來決策觀察視窗，在我們的實際業務中，一般取MOB=12作為中長期的風險表現觀察視窗，

02 科學應用資料

file

當有了樣本和模型的目標以后，接下來看哪些特征資料可以應用于風控模型，從整個金融視角來看，可用資料型別有以下幾類：

征信報告：用戶歷史信用記錄
互聯網資料：用戶在互聯網上的各種資料
第三方金融科技公司的合規資料
用戶在自身產品下的行為資料

從三個視角來描述用戶：

基本屬性畫像：描述用戶的基本屬性畫像，如年齡、性別、婚姻、職業、文化水平、興趣愛好、人生階段、常駐地等（通過各種機器學習、NLP等演算法預測）；
行為序列：用戶在一段時間內的行為，總是有很強的相關性，尤其在信貸場景下，行為序列很好地反映了用戶的需求（通過各種RNNs做序列建模）；
社交關系：物以類聚，人以群分，比如通過用戶周圍人的收入及消費能力，例如同小區的人或者同事，可以一定程度從側面反映用戶的資產能力（通過各種GNNs做關聯網路的建模），

以下是一些簡單的模型、特征設計示例，由于我們今天主要討論資料科學，就不詳細展開了，

file

文本類資料：利用Attention網路提取大量文本的核心資料；
時序類資料：利用大量借還款行為做RNNs模型預測用戶未來風險；
關聯類資料：1）分群演算法：群屬性作為特征；2）基于深度圖卷積網路，充分利用相鄰節點的資訊，

file

回顧之前關于選擇觀察期視窗的vintage圖表，如上圖紅框中所示，可以看到很多月份的曲線斜率突然大幅上揚，按時間去對應的話，就會發現這段時間正是2020年初新冠疫情爆發的時間，疫情的爆發導致逾期率大幅上漲，而對疫情的影響我們沒有任何歷史經驗，也就是說歷史學習到的特征X（用戶屬性）與目標Y（逾期率）之間的關系已經不適用在疫情場景下了，于是針對當下，我們需要考慮三個問題：

疫情影響是否結束？這涉及到我們該選擇什么樣的X—Y關系用于建模和預測，
疫情影響了哪些樣本？疫情顯然是特殊場景，不應該和正常環境下的資料混合在一起，
如何利用疫情下的樣本？

疫情持續反復，但影響在不斷減弱，我們主要探討下面兩個問題，

file

找出受疫情影響的用戶，可以把客戶分成以下兩種：

表現期不在疫情期間：包括正常用戶和自然逾期的用戶；即這些用戶是不受疫情影響的，
表現期在受疫情影響期間：包括正常用戶和逾期用戶，而逾期用戶里必然有自然逾期和受疫情影響而逾期的用戶，

我們將表現期不在疫情期間逾期的用戶標識為0，將表現期在受疫情期間的逾期用戶標識為1，基于二分類模型進行訓練，經過模型訓練以后，那些預測高概率為1的用戶就是那些受疫情影響而逾期的用戶，而那些預測高概率為0的用戶就是不管有沒有疫情都大概率會逾期的客戶，這樣，我們設定一個閾值，就可以將大部分受疫情影響而逾期的用戶找出來，

file

另一種方法是通過EM迭代進行識別，如上圖所示，我們按照授信月的各個MOB是否在疫情發生時期來對逾期客戶標記顏色，藍色：自然逾期；紅色：在疫情期間內逾期，

通過每一輪的EM迭代，我們可以將紅色分布里面近似于藍色分布的部分逐漸找出來并加入到藍色區塊內，當整體的風險水平接近疫情前時停止，那么依然留在紅色區域內的逾期用戶就是受疫情影響而逾期的用戶了，

file

通過以上兩種方法過濾后，我們再觀察下隨時間的逾期率變化，從上圖可以看到，原先逾期30天以上的曲線在疫情發生期間是大幅上揚的，但過濾后整個線就比較平了，

03 科學評估資料

file

接下來講一下如何科學準確地評估模型的效果，

風險模型最核心的指標就是排序指標KS，KS值可以很好地度量一個集合內好壞用戶的排序分布，一個常見的情形是，離線評測模型的KS值很高，但是等到上線應用后，模型的KS很快就大幅“衰減”了，而且很多時候都是離線提升的越多，線上衰減越大，那么是模型出問題了嗎？這里其實有個觀察的誤區，所謂的“衰減”是指在不同時期的不同用戶集合上的KS值比較，而實際上不同集合間的KS絕對值是沒有比較意義的，

舉一個簡單的例子，某一場考試預測排名，試想對全校去年成績前50的學生進行排序預測容易還是對任意一個班的學生預測排序容易，顯然對后者的預測必然會更準確一些，上圖中右邊部分描述模型上線后KS“衰減”的原因，新模型V2的排序能力高于V1，它可以將V1授信通過的用戶中更多的壞用戶排到靠后，當V2上線后，V2高準確度識別的類似壞用戶無法通過了（也就是只剩下全校排名靠前的學生了），因此對V2決策通過的用戶算KS自然就下降了，上圖中，只有KS2與KS1、KS3與KS4是有比較意義的，

模型穩定性是另一個關鍵因素，分布穩定性最基礎的指標是PSI，只有預測分數分布是穩定的，這樣才有信心可以基于歷史資料去預測未來的風險；性能穩定性則是指，要保證預測分數區間對應的真實風險是相對穩定的，比如600-650分之間對應的逾期風險是1%，那么我們希望在所有月份上真實風險都能穩定在1%的水平附近，

而在策略對模型的實際應用中，核心則是基于Swap in & out的分析，通過分段交叉的矩陣，考量在人數相同的情況下，新模型的整體逾期率是否顯著低于舊模型；而在相同逾期率的水平下，新模型的通過率提升多少，可以提升整體規模多少，

file

那些被拒絕掉的用戶，是沒有風險表現的，只有那些最終通過且發生信貸行為的用戶才有風險表現，試想，用于學習的樣本都是歷代模型認為較好的客戶，隨著模型不斷迭代，模型學習的樣本向好用戶收斂，樣本的特征空間就越來越窄了，常見的一種方式是引入拒絕推斷，給拒絕的用戶賦予label，讓其參與到模型訓練里，上圖介紹了一種做拒絕推斷的方法，

給拒絕的用戶按照模型1給出的打分，比如某個用戶模型1的分數是0.2（逾期率20%），那么將這個用戶的樣本復制10份，其中8份樣本的label設成0，2份設定成1，這樣10份樣本特征一樣，但整體label為1的比例就是20%，當然也可以不復制樣本，很多模型都支持設定樣本權重，通過這種方式增加了X取值的多樣性，可以一定程度提升模型的適用性，

file

客戶分群的方法有很多，上圖展示了一種劃分方法：最頂層先考慮實際的借款用途，區分為小微和消費；然后基于客戶的活躍程度進一步劃分成活躍和非活躍；最后再根據如行業或者行為上的差異進一步細分客群，細分客群的核心思想是，不同客群之間存在明顯的差異性，一種是特征上的差異，一種是風險表現上的差異，這種情況下，細分客群建模，可以讓每個模型充分學習自身樣本的資訊，而不是從全域上平均化地去擬合，但是，如果尋找不到顯著的差異，特別是樣本總量還不是很充足的時候，分客群不是一個好的選擇，

04 科學解釋資料

file

最后講一下如何解釋模型結果，

V1：邏輯回歸模型：優點——可解釋強，缺點——特征數量少，模型簡單，對特征的質量要求非常高，預測的能力相對較弱，
V2：決策樹模型：優點——避免大量特征工程，模型效果較好，缺點——特征多，且特征之間是非線性關系，難以解釋，
V3: 兩層模型：把成千上萬的變數基于資料源，通過各種機器學習、深度學習的演算法構建子模型，然后把這些子分作為上層LR或淺層XGB模型的輸入，完成最終的模型，優點是在頂層模型上解釋性很好，子分與結果具有一定線性關系，可以快速定位子分的問題，非常便于排查問題，

今天的分享就到這里，謝謝大家，
本文首發于微信公眾號“DataFunTalk”，歡迎轉載分享，

轉載請註明出處，本文鏈接：https://www.uj5u.com/shujuku/465109.html

標籤：其他

上一篇：如何使用 SQL WHERE 過濾回傳的資料

下一篇：Redis快取相關的幾個問題

度小滿嚴澄：資料科學與金融風控模型

01 科學定義資料

1. 金融風險管理

2. 科學定義資料

02 科學應用資料

03 科學評估資料

04 科學解釋資料