回歸分析是什么？

回歸是一種資料分析方法，研究兩個或多個變數之間的關系，不同于上一篇所講的相關分析，回歸分析能確定Y與X間的定量關系運算式（回歸方程），因此，它可以

揭示各個X對Y的影響程度大小
幫助建立預測模型

回歸分析的方法數不勝數，稍加整理，得到下圖：
在這里插入圖片描述

回歸分析是什么？
工具
回歸
- 1 線性回歸（Linear regression）
- - 最小二乘法（Least Square Method）
  - 逐步回歸（Stepwise regression）
  - 分層回歸（Hierarchical multiple regression）
  - - 中介作用
    - 調節作用
  - 套索回歸（Lasso regression) 、嶺回歸（Ridge regression）、彈性網路回歸（ElasticNet regression）
- 2 偏最小二乘法回歸（Partial least squares regression/ PLS regression）
- 3 Logistic回歸
- 檢驗回歸模型
- - F檢驗
  - R2
  - 多重共線性——VIF值
  - 自相關性——D-W值
  - 殘差正態性
  - 異方差性
- 其他參考資料

工具

SPSSAU（我之前用得比較熟，但是它要錢QAQ）
SPSSPRO（free！）
pycharm

回歸

1 線性回歸（Linear regression）

線性回歸假設目標/因變數/Y與特征/自變數/X存在線性關系，即滿足一個多元一次方程 y = θ 0 + θ 1 x 1 + . . . θ n x n . y = θ_0+θ_1x_1+...θ_nx_n. y=θ0?+θ1?x1?+...θn?xn?.因此它將尋找最佳的擬合直線（回歸線），從而確定回歸方程中的θ.具體方法如下：在這里插入圖片描述
補充上SPSSAU官網的總結：

最小二乘法（Least Square Method）

最小二乘法是解決曲線擬合問題最常用的方法，在1806年由馬里·勒讓德提出，其一般形式是：
在這里插入圖片描述

操作方法：

SPSSPRO→ 預測模型→ 線性回歸（最小二乘法）
python代碼有兩個庫可以選擇，可以參考這位仁兄的勞動成果：
Python數模筆記-StatsModels 統計回歸（2）線性回歸
Python數模筆記-Sklearn（4）線性回歸

逐步回歸（Stepwise regression）

逐步回歸分析會自動化移除掉不顯著的X，通常用于探索研究中，

操作方法：

SPSSAU→進階方法→逐步回歸（要開會員：(
python代碼可以參考這位仁兄的勞動成果：https://blog.csdn.net/qq_34105362/article/details/89574808

分層回歸（Hierarchical multiple regression）

分層回歸對若干個自變數x進行分群組分析，主要用于模型的比較，或者說對變數重要性進行判定，通常用于中介作用或者調節作用研究中，

中介作用

中介作用是研究X對Y的影響時，是否會先通過中介變數M，再去影響Y；即是否有X->M->Y這樣的關系，如果存在此種關系，則說明具有中介效應，
在這里插入圖片描述

調節作用

調節作用是研究X對Y的影響時，是否會受到調節變數Z的干擾，
在這里插入圖片描述
操作方法：
SPSSPRO→預測模型→分層回歸

套索回歸（Lasso regression) 、嶺回歸（Ridge regression）、彈性網路回歸（ElasticNet regression）

#對于有些矩陣，矩陣中某個元素的一個很小的變動，會引起最后計算結果誤差很大，這種矩陣稱為“病態矩陣”，有些時候不正確的計算方法也會使一個正常的矩陣在運算中表現出病態，

對于共線性問題和病態資料，則要采用下面這兩種有偏估計回歸方法，在標準回歸分析（最小二乘法）的基礎上，通過正則化，獻祭掉無偏性（損失部分資訊、降低精度），得到更高的穩定性（更為符合實際），

	Lasso回歸	嶺回歸
全稱	Least absolute shrinkage and selection operator	Ridge regression/ Tikhonov regularization
原理	L1正則化	L2正則化
損失函式可導性	不連續可導	連續可導
求極值的解法	坐標軸下降法、最小角回歸法（LARS）	牛頓法、擬牛頓法等
結果	更容易使得權重變為 0	使得權重接近 0
額外用途	特征選擇(feature selection)	/
使用情況	對樣本的噪聲極為敏感	更老，更常用

彈性網路回歸則綜合了前兩種演算法：lasso回歸篩選出相關的引數，并縮減其他無關引數；同時嶺回歸縮減所有相關性的引數，

注：通常，這三種回歸得到的方程的R平方值會稍低于普通回歸分析，而回歸系數的顯著性往往明顯高于普通回歸，

操作方法：

SPSSPRO→“預測模型”→“嶺回歸（Ridge)”
SPSSAU→“進階方法”→“嶺回歸”或者（要會員orz
python代碼可以參考這位仁兄的勞動成果：
【機器學習】LASSO回歸、彈性網路回歸（附python代碼）

2 偏最小二乘法回歸（Partial least squares regression/ PLS regression）

PLS回歸是一種解決共線性問題、多個因變數Y同時分析、以及處理小樣本時影響關系研究的一種多元統計方法，
操作方法：

SPSSAU→ 進階方法 → PLS回歸（要會員orz
python代碼可以參考這位仁兄的勞動成果：
python 偏最小二乘回歸

3 Logistic回歸

邏輯回歸又叫對數幾率回歸，是一種廣義的線性回歸分析模型，主要用于分類問題，
在這里插入圖片描述

困了，有緣再寫，先堆一下可能會用到的參考資料，
邏輯回歸(logistics regression)原理-讓你徹底讀懂邏輯回歸
【機器學習】邏輯回歸（非常詳細）-知乎
logistic回歸模型
一文理解二元logistic回歸-SPSSAU知乎
有序Logit（Logistic）分析-SPSSAU官網

檢驗回歸模型

對回歸模型進行檢驗，可包括以下：

F檢驗

F是方差比率，主要用于方差齊性檢驗、方差分析等等， F = S S A / d f 1 S S E / d f 2 F=\frac{SSA/df1}{SSE/df2} F=SSE/df2SSA/df1?
其中SSA是各個水平之間的偏差平方和或組間平方和（Sum of Square Between Groups）， SSE是各個水平內部的偏差平方和，可以說成是組內偏差平方和，可以理解為上面說的誤差的平方和（Sum of Square Error），df1、df2分別是它們的自由度，

F < F表表明兩組資料沒有顯著差異；
F ≥ F表表明兩組資料存在顯著差異，

注：

F檢驗對于資料的正態性非常敏感，因此在檢驗方差齊性的時候，Levene檢驗, Bartlett檢驗或者Brown–Forsythe檢驗的穩健性都要優于F檢驗，
若兩個母體有相同的方差（方差齊性），那么可以采用F檢驗，但是該檢驗會呈現極端的非穩健性和非常態性，可以用t檢驗、巴特勒特檢驗等取代，

R2

R2是指擬合優度，反應擬合程度，
R 2 = 1 ? ∑ i ( y i ^ ? y i ) 2 ∑ i ( y i ? y i ˉ ) 2 R^2=1-\frac{\begin{matrix} \sum_{i} (\hat{y_i}-y_i)^2 \end{matrix}}{\begin{matrix} \sum_{i} (y_i-\bar{y_i})^2 \end{matrix}} R2=1?∑i?(yi??yi?ˉ?)2?∑i?(yi?^??yi?)2??

R2 = 1：最理想情況，所有的預測值等于真值，
R2 = 0：一種可能情況是"簡單預測所有y值等于y平均值"，即所有y_i(hat）都等于y_i(ba)（即真實y值的平均數），但也有其他可能，
R2<0：模型預測能力差，比"簡單預測所有y值等于y平均值"的效果還差，這表示可能用了錯誤模型，或者模型假設不合理，
R2沒有下限，因為預測可以任意程度的差，因此，R方的范圍是 [公式] ，

多重共線性——VIF值

查看VIF值，如果全部小于10（嚴格是5），則說明模型沒有多重共線性問題，模型構建良好；反之若VIF大于10說明模型構建較差，

自相關性——D-W值

如果D-W值在2附近（1.7~2.3之間），則說明沒有自相關性，模型構建良好，反之若D-W值明顯偏離2，則說明具有自相關性，模型構建較差，解決方案：查看因變數Y資料，

殘差正態性

在分析時可保存殘差項，然后使用“直方圖”直觀檢測殘差正態性情況，如果殘差直觀上滿足正態性，說明模型構建較好，反之說明模型構建較差，解決方案：重新構建模型（e.g. 對Y取對數后再次構建模型)

異方差性

將保存的殘差項，分別與模型的自變數X或者因變數Y，作散點圖，查看散點是否有明顯的規律性，比如自變數X值越大，殘差項越大/越小，這時此說明有規律性，模型具有異方差性，模型構建較差，解決方案：重新構建模型（e.g. 對Y取對數后再次構建模型)

另外，如果回歸分析出現各類例外，記得查看資料中是否有例外值并處理，

其他參考資料

知乎專欄-19種回歸分析你知道幾種呢？
Python數模筆記-StatsModels 統計回歸（2）線性回歸
Python數模筆記-Sklearn（4）線性回歸

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/423156.html

標籤：AI

上一篇：利用matplotlib繪制圓環圖的案例

下一篇：視頻監控智能交通資料集（目標檢測、跟蹤）

【數模整理3】資料分析那些事兒——回歸分析

回歸分析是什么？

目錄

工具

回歸

1 線性回歸（Linear regression）

最小二乘法（Least Square Method）

逐步回歸（Stepwise regression）

分層回歸（Hierarchical multiple regression）

中介作用

調節作用

套索回歸（Lasso regression) 、嶺回歸（Ridge regression）、彈性網路回歸（ElasticNet regression）

2 偏最小二乘法回歸（Partial least squares regression/ PLS regression）

3 Logistic回歸

檢驗回歸模型

F檢驗

R2

多重共線性——VIF值

自相關性——D-W值

殘差正態性

異方差性

其他參考資料