任務目標:
??對于電信運營商來說,用戶流失有很多偶然因素,不過通過對用戶屬性和行為的數字化描述,我們或許也能夠在這些資料中,挖掘導致用戶流失的“蛛絲馬跡”,并且更重要的一點,如果能夠實時接入這些資料,或許還能夠進一步借助模型來對未來用戶流失的風險進行預測,從而及時制定挽留策略,來防止用戶真實流失情況發生,
機器學習建模目標:
在此背景下,實際的演算法建模目標有兩個,其一是對流失用戶進行預測,其二則是找出影響用戶流失的重要因子,來輔助運營人員來進行營銷策略調整或制定用戶挽留措施,
綜合上述兩個目標我們不難發現,我們要求模型不僅要擁有一定的預測能力,并且能夠輸出相應的特征重要性排名,并且最好能夠具備一定的可解釋性,也就是能夠較為明顯的闡述特征變化是如何影響標簽取值變化的,據此要求,我們首先可以考慮邏輯回歸模型,邏輯回歸的線性方程能夠提供非常好的結果可解釋性,同時我們也可以通過邏輯回歸中的正則化項也可以用于評估特征重要性,
- Stage 1.業務背景解讀與資料探索
??在拿到資料(接受任務)的第一時間,需要對資料(也就是對應業務)的基本背景進行解讀,由于任何資料都誕生于某業務場景下,同時也是根據某些規則來進行的采集或者計算得出,因此如果可以,我們應當盡量去了解資料誕生的基本環境和對應的業務邏輯,盡可能準確的解讀每個欄位的含義,而只有在無法獲取真實業務背景時,才會考慮退而求其次通過資料情況去倒推業務情況,
??當然,在進行了資料業務背景解讀后,接下來就需要對拿到的資料進行基本的資料探索,一般來說,資料探索包括資料分布檢驗、資料正確性校驗、資料質量檢驗、訓練集/測驗集規律一致性檢驗等,當然,這里可能涉及到的操作較多,也并非所有的操作都必須在一次建模程序中全部完成,但作為教學案例,我們將在后續的內容中詳細介紹每個環節的相關操作及目的, - Stage 2.資料預處理與特征工程
??在了解了建模業務背景和基本資料情況后,接下來我們就需要進行實際建模前的“資料準備”作業了,也就是資料預處理(資料清洗)與特征工程,其中,資料清洗主要聚焦于資料集資料質量提升,包括缺失值、例外值、重復值處理,以及資料欄位型別調整等;而特征工程部分則更傾向于調整特征基本結構,來使資料集本身規律更容易被模型識別,如特征衍生、特殊型別欄位處理(包括時序欄位、文本欄位等)等,
??當然,很多時候我們并不刻意區分資料清洗與特征工程之間的區別,很多時候資料清洗的作業也可以看成是特征工程的一部分,同時,也有很多時候我們也不會一定要求在不同階段執行不同操作,例如如果在資料探索時發現缺失值比例較小,則可以直接對其進行均值/眾數填補,而不用等到特征工程階段統一處理,再例如很多特征工程的方法需要結合實際建模效果來判別,所以有的時候特征衍生也會和建模程序交替進行, - Stage 3.演算法建模與模型調優
??在經過一系列準備作業后,就將進入到最終建模環節了,建模程序既包括演算法訓練也包括引數調優,當然,很多時候建模作業不會一蹴而就,需要反復嘗試各種模型、各種調參方法、以及模型融合方法,此外,很多時候我們也需要根據最終模型輸出結果來進行資料預處理和特征工程相關方法調整,
資料解讀與預處理:
??獲取資料:
????在資料集主頁,下載csv,放到主目錄下:
| customerID | gender | SeniorCitizen | Partner | Dependents | tenure | PhoneService | MultipleLines | InternetService | OnlineSecurity | ... | DeviceProtection | TechSupport | StreamingTV | StreamingMovies | Contract | PaperlessBilling | PaymentMethod | MonthlyCharges | TotalCharges | Churn | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 7590-VHVEG | Female | 0 | Yes | No | 1 | No | No phone service | DSL | No | ... | No | No | No | No | Month-to-month | Yes | Electronic check | 29.85 | 29.85 | No |
| 1 | 5575-GNVDE | Male | 0 | No | No | 34 | Yes | No | DSL | Yes | ... | Yes | No | No | No | One year | No | Mailed check | 56.95 | 1889.5 | No |
| 2 | 3668-QPYBK | Male | 0 | No | No | 2 | Yes | No | DSL | Yes | ... | No | No | No | No | Month-to-month | Yes | Mailed check | 53.85 | 108.15 | Yes |
| 3 | 7795-CFOCW | Male | 0 | No | No | 45 | No | No phone service | DSL | Yes | ... | Yes | Yes | No | No | One year | No | Bank transfer (automatic) | 42.30 | 1840.75 | No |
| 4 | 9237-HQITU | Female | 0 | No | No | 2 | Yes | No | Fiber optic | No | ... | No | No | No | No | Month-to-month | Yes | Electronic check | 70.70 | 151.65 | Yes |
5 rows × 21 columns
1.由于資料集沒有提供資料字典,但是可以通過欄位名字知道其意義,

得到資料以后,我們首先檢查資料的完整性,目前來看,我們得到的資料沒有預設值(沒有None和Nan),但并不排除可能存在用別的值表示缺失值的情況,稍后我們將對其進行進一步分析,
欄位型別探索:
接下來,我們應該圍繞資料集的欄位型別進行一些調整:(以方便后來我們的使用)
- 時序欄位處理
大多數欄位都屬于離散型欄位,并且object型別居多,由于建模分析中,無法直接使用object型別物件,所以進行型別轉化,通常來說,我們會將欄位劃分為連續型欄位和離散型欄位,并且根據離散欄位的具體含義來進一步區分是名義型變數還是有序變數,不過在劃分連續/離散欄位之前,我們發現資料集中存在一個入網時間欄位,看起來像是時序欄位,但是!時間標注的時序欄位即不資料連續型欄位或離散型欄位(盡管可以將其看成是離散欄位,但這樣做會損失一些資訊),因此我們需要重點關注入網時間欄位是否是時間標注的欄位:

在第三季度中,這些用戶的行為發生在某73天內,因此入網時間欄位有73個取值,不過由于該欄位是經過字典排序后的結果,因此已經損失了原始資訊,即每位用戶實際的入網時間,而在實際的分析程序中,我們可以轉化后的入網時間欄位看成是離散變數,當然也可以將其視作連續變數來進行分析,具體選擇需要依據模型來決定,此處我們先將其視作離散變數,后續根據情況來進行調整,
- 連續/離散型變數標注
們需要對不同型別欄位進行轉化,并且在此程序中,我們需要檢驗是否存在采用別的值來表示缺失值的情況,就像此前所說我們通過isnull只能檢驗出None(Python原生物件)和np.Nan(numpy/pandas在讀取資料檔案時檔案內部缺失物件的讀取后表示形式)物件,但此外我們還需要注意資料集中是否包含采用某符號表示缺失值的情況,例如某些時候可能使用空格(其本質也是一種字符)來代替空格:
此時在進行檢驗時,空格的資料并不會被識別為缺失值(空格本身也是一種值),
但根據實際情況來看,空格可能確實是代表著資料采集時資料是缺失的,因此我們仍然需要將其識別然后標記為缺失值,此時可以通過比較資料集各列的取值水平是否和既定的一致來進行檢查,例如,對于上述df資料集來說,特征A和B默認情況只有Y和N兩種取值,而B列由于通過空格表示了缺失值,因此用nunique查看資料集的話,B列將出現3種取值:
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/545402.html
標籤:Python
上一篇:Python教程:類的派生
