【如何3秒鐘看出一個人的python實力|Python 資料分析打怪升級之路 day04】：手把手教你如何分析用戶資料、資料分析基本概念-有解無憂

資料分析打怪升級進度：day04

在這里插入圖片描述
哈嘍大家好啊，歡迎來到夜斗小神社資料分析打怪升級之路！

大家可以叫我小夜斗：“一枚想要做python領域強者的小萌新”

你會確信你終于在CSDN找到了能信賴的python知識分享者，這篇文章將會成為你未來資料分析的啟蒙之路，聽起來不錯吧！

小夜斗致力于python語言知識分享，這些知識各個領域的大佬課程中的檔案，內容干貨非常多、相信大家學完之后定有所成！

現在關注小夜斗，將有更多干貨分享，都能去大廠面試了！

一：資料分析相關概念

商業智能(BI)：用資料預測用戶購物行為
資料倉庫(DW)：顧客的消費行為存盤倉庫
資料挖掘(DM)：根據個體消費行為分析總結規律
元資料：描述其它資料的資料，也稱為"中介資料"（一套圖書）
資料元：最小資料單元(一套圖書中的書名、作者、等資訊)
KDD(Knowledge Discovery in Database)：資料庫中的知識發現

二：挖掘資料價值程序

輸入資料 —— 資料預處理 —— 資料挖掘 —— 后處理 —— 價值資訊

資料預處理：對參差不齊的資料轉化為我們想要的格式，一般包括資料清洗（去除重復值、干擾資料以及填充缺失值）、資料集成(將資料統一存盤)、資料變化（將資料轉換到合適的區間、轉換合適的屬性）

下面是參考陳旸老師資料分析實戰45講關于一些概念的段子
不得不說這可真的是生動形象、一下子就都理解遼抽象概念！

商業智能會告訴你要追哪個？成功概率有多大？
資料倉庫會說，我這里存盤了這兩個女孩的相關資訊，你要嗎？
其中每個女孩的資料都有單獨的檔案夾，里面有她們各自的姓名、生日、喜好和聯系方式
等，這些具體的資訊就是資料元，加起來叫作元資料，
資料挖掘會幫助你確定追哪個女孩，并且整理好資料倉庫，這里就可以使用到各種演算法，
幫你做決策了，
你可能會用到分類演算法，御姐、蘿莉、女王，她到除錯于哪個分類？
如果認識的女孩太多了，多到你已經數不過來了，比如說 5 萬人！你就可以使用聚類演算法
了，它幫你把這些女孩分成多個群組，比如 5 個組，然后再對每個群組的特性進行了解，
進行決策，這樣就把 5 萬人的決策，轉化成了 5 個組的決策，成功實作降維，大大提升了
效率，如果你想知道這個女孩的閨蜜是誰，那么關聯分析演算法可以告訴你，
如果你的資料來源比較多，比如有很多朋友給你介紹女朋友，很多人都推薦了同一個，你
就需要去重，這叫資料清洗；為了方便記憶，你把不同朋友推薦的女孩資訊合成一個，這
叫資料集成；有些資料渠道統計的體重的單位是公斤，有些是斤，你就需要將它們轉換成
同一個單位，這叫資料變換，
最后你可以進行資料可視化了，它會直觀地把你想要的結果呈現出來，

三：用戶畫像建模

統一化（統一用戶的唯一標識）
標簽化（給用戶打標簽）
業務化（指導業務關聯）

用戶唯一標識是整個用戶畫像的核心，你可以通過特有的特征來選擇唯一標識，賬號姓名、手機號等

用戶消費行為分析：用戶標簽(性別、年齡、收入、學歷等)、消費標簽（消費習慣、購買意向等）、行為標簽（時間段、時長、頻率）、內容分析（金融、娛樂、科技等）

不同的建模程序，需要打上不同的標簽:

資料層：事實標簽，作為客觀記錄
演算法層：模型標簽，作為分類標識
業務層：預測標簽，業務關聯結果

三：用戶畫像帶來的業務價值

獲客：精準營銷獲取客戶
黏客：個性化推薦、搜索排序等
留客：關鍵點降低流失率

四：清洗任務為何如此重要

資料科學家80%時間花費在了清洗任務上

小夜斗給大家舉一個很簡單易懂的例子：高中三年，你留的汗水都是為了高考那三天！

沒錯，三年就是在為高考那三天做準備作業！

類似的道理：資料清洗任務是為資料挖掘做準備作業，得到你想要的的資料形式，以便更好的構造模型！

資料質量標準的四大規則：

完整性：是否存在空缺值

# 對年齡缺失值用平均年齡填充
df['Age'].fillna(df['Age'].mean(), inplace=True)
# 用當前列出現頻率最高的資料填充
age_max = df['Age'].values_counts().index[0]
df['Age'].fillna(age_max, inplace=True)
# 洗掉空行
df.dropna(how='all', inplace=True)

全面性：平均值、最大值、最小值等
合法性：是否有未知值等
唯一性：重復資料
在這個星球上，你很重要，請珍惜你的珍貴! ~~~夜斗小神社

在這里插入圖片描述

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/283062.html

標籤：其他

上一篇：Flink原始碼篇-FlinkStreaming執行計劃生成流程

下一篇：72個免費學習網站，涵蓋所有，你值得擁有！【非推廣】