隨著數字化轉型的發展，大資料人工智能計算日臻完善，資料與分析將成為企業戰略的核心，企業必須高度重視并大力投入，

1. 概述

1.1. Pandas高級資料分析知識體系

基于Pandas高級資料分析，知識技能包括：資料的讀寫、表內操作、表間操作（例如關系型資料庫表關聯，Excel sheet關聯等）、統計功能、分析計算（基于大資料機器學習高級分析計算）、可視化圖表等，

其中，資料層面使用常用的CSV資料檔案，以及Clickhouse資料倉庫和檔案型資料庫Mongo DB，

1.2. 高級資料分析程序

資料分析程序較為復雜，涉及到資料采集、資料治理、建立資料倉庫、特征工程、建立演算法模型、模型訓練等作業，本文以資料分析師的視角，只學習掌握資料采集、特征工程、建立演算法模型、模型訓練等知識技術內容，
在這里插入圖片描述

1.3. 快速入門環境

1.3.1. 軟體開發環境

軟體開發環境為windows 10（也可以使用Centos 7），python為3.6.X，開發工具為Jupyter Notebook，建議計算機記憶體大于16G，互聯網網路順暢，

1.3.2. 業務場景

（1）. pandas基本操作使用田徑運動員簡單資料演練
在這里插入圖片描述

（2）. 資料高級分析，使用少量、截取、脫密的客戶加油交易資料

2. 快速入門基礎

2.1. Pandas高級資料分析快速入門之一——Python開發環境篇

內容概述：

Python是什么？
安裝Python
Python開發環境安裝與配置
2.1. 安裝jupyter
2.2. 開發環境漢化
2.3. jupyter工具使用
高級資料分析工具安裝
3.1. Python工具包
3.2. Python依賴

2.2. Pandas高級資料分析快速入門之二——基礎篇

內容概述：

Pandas構成
0.1. 第一個DataFrame
0.2. Pandas資料型別
0.3. Pandas資料型別轉換
0.4. 用到的Python基礎
0.4.1. 序列（List）
0.4.2. 字典
從讀取通用資料檔案開始
1.1. 讀XLS資料檔案
1.2. 讀CSV資料檔案
對表（DataFrame）增減資料
2.1. 增減行資料
2.1.1. 增加行
2.1.2. 洗掉行
2.2. 增減列資料
2.2.1. 增加列資料
2.2.2. 洗掉列資料
把資料保存到CSV檔案
DataFrame單元格操作
4.1. 讀取單元格資料
4.2. 修改單元格資料
讀取Clickhouse資料

2.3. Pandas高級資料分析快速入門之三——資料挖掘與統計分析篇

內容概述：

前言
原資料挖掘——交易明細
1.1. 讀取原資料
1.2. 時序資料挖掘
1.3. 資料計算
1.4. 挖掘資料周期維度
1.5. 表關聯（merge）
1.6. 小結
常用特征提取——極限值與統計值
2.1. 最后一次交易關鍵特征
2.2. 關鍵極值特征
2.3. 累計/均值/計數等通常特征
2.4. 方差/標準差等波動特征
2.5. 其他
按周期統計分析資料
3.1. 月周期
3.2. 月特征提前——極限值與統計值

2.4. Pandas高級資料分析快速入門之四——資料可視化篇

內容概述：

關于Matlibplot
Pandas繪圖
2.1. 畫直方圖
2.2. 畫密度圖曲線圖
2.3. 畫折線圖
2.4. 畫柱狀圖
2.5. 畫餅狀圖
2.6. 畫條形圖
復雜圖形
3.1. 熱力圖（皮爾遜相關）
3.2. 雷達圖

2.5. Pandas高級資料分析快速入門之五——機器學習特征工程篇

內容概述：

Pandas高級資料分析使用機器學習概述
線性回歸計算斜率和方差
資料密度計算正常狀態/周期
相關分析計算特征間關系
歸一化、標準化
聚類——KMean
小結

2.6. Pandas高級資料分析快速入門之六——機器學習預測分析篇

內容概述：

訓練集、測驗集
XGBoost分類模型訓練
1.1. 輸入資料集
1.2. 超引數設定
學習任務引數objective
驗證資料的評估指標eval_metric [根據目標默認]
Tree Booster引數
1.3. 模型訓練
1.4. 模型持久化
預測結果分析
2.1. 重要特征
2.2. 模型評估
XGBoost分類持久化模型應用
附錄：引數
學習任務引數objective
驗證資料的評估指標eval_metric [根據目標默認]

3. 延申閱讀，常用實用操作與技巧

3.1. Pandas高級資料分析快速入門之資料篩選——分組排序篩選實踐筆記

內容概述：

排序
分組篩選
2.1. 分組后，篩選每組最后一條記錄
2.2. 分組后，篩選每組倒數第二條記錄
2.3. 分組后，篩選每組首條記錄
2.4. 分組后，篩選每組前兩條記錄（top2）
2.5. 按條件篩選分組
2.6. 分組后，按組篩選
2.7. 分組后，使用Filter篩選

3.2. Pandas高級資料分析快速入門之資料編輯——洗掉行與列

內容概述：

洗掉行
1.1. 按行索引洗掉行資料
1.2. 分組洗掉最后一行資料
1.3. 按條件查詢洗掉行資料
1.4. 按多個行索引洗掉多行
1.5. 按行范圍洗掉
洗掉列
2.1. 方法一：drop
2.2. 方法二：del
總結
3.1. drop方法的用法
3.2. 依賴切片操作

3.3. 在CentOS7上部署Python開發工具Jupyter Notebook的遭遇

內容概述：

安裝Jupyter Notebook
部署Jupyter Notebook作業環境
2.1. 創建組態檔及遇到“缺少libstdc++.so.6庫”問題
2.2. 配置作業環境
2.3. 打開防火墻
啟動jupyter notebook服務

3.4. Pandas高級資料分析快速入門之工具使用——Jupyter匯出PDF問題

內容概述：

安裝Tex
安裝pandoc
其他安裝包

3.5. 資料處理技術、技巧集錦（Pandas、Numpy、List）

內容概述：

pandas表合并
1.1. 兩個表橫向按資料行值相同關聯并集（以左表為基準表）
1.2. 兩個表橫向按資料行值相同交集合并（兩表交集）
1.3. 兩個表縱向合并
pandas 分組過濾
2.1. 分組及列名處理
2.2. 過濾
pandas表內資料處理
3.1. pandas按列過濾字串（濾除數字中非數字）
3.2. Pandas字串轉換時間處理
3.3. 資料滾動窗
3.4. 時間特征提取
3.5. 特征編碼與特征增維
pandas DateFrame表的行、列操作
4.1. 取行和列的幾種常用方式
4.2. 插入列，重新排列
4.3. 資料上移、下移一行
4.4. 洗掉表最后一行、首行
4.5. 修改列名
Numpy與DataFrame相互轉換
list與pandas
6.1. 移除（洗掉）某個值
6.2. 字典與Pandas、Mongo操作
Numpy陣列/矩陣操作
7.1. 二維陣列，按行取資料（陣列截斷）
7.2. 二維陣列，取具體幾列資料
7.3. 二維陣列，橫向合并資料
7.4. 二維陣列，縱向追加行
Pandas創建表
8.1. 讀取檔案創建表
8.2. 讀取Mongo資料庫資料創建表
8.3. pandas轉Json存盤到Mongo
8.4. Mongo與Pandas資料讀取、存盤實體代碼

4. 相關內容

4.1. Python使用ClickHouse實踐與踩坑記

內容概述：

關于ClickHouse使用實踐
1.1. ClickHouse 應用于資料倉庫場景
1.2. 客戶端工具DBeaver
1.3. 大資料應用實踐
Python使用ClickHouse實踐
2.1. ClickHouse第三方Python驅動clickhouse_driver
2.2. 實踐程式代碼
總結

4.2. Python開發中使用Mongo DB入門實踐

4.3. 應用XGboost實作多分類模型實踐

內容概述：

輸入資料
模型及其引數
預測輸出
模型的訓練
4.1 資料源及重要特征
4.2. 訓練引數優化
模型訓練的應用實踐代碼
關于fit（）與train（）的區別補充

5. 總結

基于特征工程和XGBoost演算法的預測方法，是較為易用、預測效果的資料分析方法，其中，方法的中間程序所產生的特征可用于解釋模型及業務，例如通過特征相關性、相似性、重要程度排序等分析，確定了對業務領域決策貢獻度較高的特征，該研究有助于優化業務領域影響因素分析，為業務人員提供分析依據，

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/317841.html

標籤：其他

上一篇：hive資料庫及表操作

下一篇：MySQL資料庫基礎

Pandas高級資料分析快速入門——全程序綜述及案例集錦

1. 概述

1.1. Pandas高級資料分析知識體系

1.2. 高級資料分析程序

1.3. 快速入門環境

1.3.1. 軟體開發環境

1.3.2. 業務場景

2. 快速入門基礎

2.1. Pandas高級資料分析快速入門之一——Python開發環境篇

2.2. Pandas高級資料分析快速入門之二——基礎篇

2.3. Pandas高級資料分析快速入門之三——資料挖掘與統計分析篇

2.4. Pandas高級資料分析快速入門之四——資料可視化篇

2.5. Pandas高級資料分析快速入門之五——機器學習特征工程篇

2.6. Pandas高級資料分析快速入門之六——機器學習預測分析篇

3. 延申閱讀，常用實用操作與技巧

3.1. Pandas高級資料分析快速入門之資料篩選——分組排序篩選實踐筆記

3.2. Pandas高級資料分析快速入門之資料編輯——洗掉行與列

3.3. 在CentOS7上部署Python開發工具Jupyter Notebook的遭遇

3.4. Pandas高級資料分析快速入門之工具使用——Jupyter匯出PDF問題

3.5. 資料處理技術、技巧集錦（Pandas、Numpy、List）

4. 相關內容

4.1. Python使用ClickHouse實踐與踩坑記

4.2. Python開發中使用Mongo DB入門實踐

4.3. 應用XGboost實作多分類模型實踐

5. 總結