一般回歸問題、線性回歸與模型的正確設定-有解無憂

1 一般回歸問題

一般來說，計量經濟學教材會從線性回歸講起，但這里再在線性回歸之前，理一理更一般性的回歸問題，

先看定義一下什么叫回歸：

定義1 回歸函式（Regression Function）：$\mathbb{E}(y|\mathbf{x})$就是$y$對$\mathbf{x}$的回歸函式，

再定義一個度量預測得好不好的指標：

定義2 均方誤（Mean Squared Error，MSE）：假設用$g(\mathbf{x})$預測$y$，則預測量$g(\mathbf{x})$的均方誤為 $$\text{MSE}(g)=\mathbb{E}[y-g(\mathbf{x})]^2$$

最好的預測函式的形式是什么？以下定理表明，最好的預測函式，恰恰就是回歸函式即條件期望，

定理1 MSE的最優解：$\mathbb{E}(y|\mathbf{x})$是以下問題的最優解：

\[\mathbb{E}(y|\mathbf{x}) = \arg\min_{g\in \mathbb{F}} \text{MSE}(g) = \arg\min_{g\in \mathbb{F}} \mathbb{E}[y-g(\mathbf{x})]^2 \]
其中$\mathbb{F}$是所有可測和平方可積函式的集合（space of all measurable and square-integrable functions）：

\[\mathbb{F}=\{ g:\mathbb{R}^{k+1}\to\mathbb{R} \Big| \int g^2(\mathbf{x})f_X(\mathbf{x})\,d\mathbf{x}<\infty\} \]

在該定理中，直接求解最值問題比較復雜，需要用到變分法，用構造法證明該定理比較簡單，直接對$\text{MSE}(g)$做分解即可，令$g_0(\mathbf{x})\equiv \mathbb{E}(y|\mathbf{x})$，則有

\[\begin{aligned} \text{MSE}(g) = &\mathbb{E}[y-g_0(\mathbf{x})+g_0(\mathbf{x})-g(\mathbf{x})]^2\\ =& \mathbb{E}[y-g_0(\mathbf{x})]^2+\mathbb{E}[g_0(\mathbf{x})-g(\mathbf{x})]^2+2\mathbb{E}[\left(y-g_0(\mathbf{x})\right)\left(g_0(\mathbf{x})-g(\mathbf{x})\right)]^2\\ =& \mathbb{E}[y-g_0(\mathbf{x})]^2+\mathbb{E}[g_0(\mathbf{x})-g(\mathbf{x})]^2 \end{aligned} \]

顯然，第一項為常數，只有當第二項為$0$即$g(\mathbf{x})=g_0(\mathbf{x})$時，$\text{MSE}(g)$取到最小，

再來看一個有關回歸中的擾動項的定理：

定理2 回歸等式（Regresssion Identity）：給定$\mathbb{E}(y|\mathbf{x})$，總是有

\[y=\mathbb{E}(y|\mathbf{x})+\varepsilon \]

其中$\varepsilon$為回歸擾動項（regression disturbance），滿足$\mathbb{E}(\varepsilon|\mathbf{x})=0$，

接下來的問題是，我們該如何對這個最優解$g_0(\mathbf{x})$建模？最簡單地，可以用線性函式去近似它，

2 線性回歸

首先，引入仿射函式的概念：

定義3 仿射函式族（Affine Functions）：記$\mathbf{x}=(1,x_1,\ldots,x_k)'$，$\beta=(\beta_0,\beta_1,\ldots,\beta_k)'$，則仿射函式族定義為

\[\mathbb{A}= \left\{g: \mathbb{R}^{k+1}\to\mathbb{R} \Big| g(\mathbf{x})=\mathbf{x}'\beta \right\} \]

當我們將$g(x)$的函式集合從所有可測且平方可積的函式集限制為仿射函式集后，問題轉變為求解最優的引數$\beta^*$使得MSE最小化，該引數就稱為最優最小二乘近似系數，

定理3 最優線性最小二乘預測（Best Linear Least Squares Prediction）：假設$E(y^2)<\infty$且矩陣$\mathbb{E}(\mathbf{x}\mathbf{x}')$非奇異，則優化問題

\[\min_{g\in\mathbb{A}} \mathbb{E}[y-g(\mathbf{x})]^2=\min_{\beta\in\mathbb{R}^{k+1}} \mathbb{E}(y-\mathbf{x}'\beta)^2 \]
的解，即最優線性最小二乘預測為

\[g^*(\mathbf{x})=\mathbf{x}'\beta^* \]
其中

\[\beta^*=[\mathbb{E}(\mathbf{x}\mathbf{x}')]^{-1}\mathbb{E}(\mathbf{x}y) \]

證明非常容易，只需對一階條件$\dfrac{d\mathbb{E}(y-\mathbf{x}'\beta)^2}{d\beta}\bigg|_{\beta=\beta^*}=0$求解即可，因為二階條件即Hessian矩陣$\dfrac{d^2\mathbb{E}(y-\mathbf{x}'\beta)^2}{d\beta d\beta'}=\mathbb{E}(\mathbf{x}\mathbf{x}')$在$\mathbb{E}(\mathbf{x}\mathbf{x}')$非奇異時一定是正定的，

下面正式定義線性回歸模型：

定義4 線性回歸模型（Linear Regression Model）：

\[y=\mathbf{x}'\beta+u, \beta\in\mathbb{R}^{k+1} \]
其中$u$是回歸模型誤差（regression model error），

那么，線性回歸模型和最優線性最小二乘預測之間有什么關系？

定理4 假設定理3的條件成立，$y=\mathbf{x}'\beta+u$，并令$\beta^*=[\mathbb{E}(\mathbf{x}\mathbf{x}')]^{-1}\mathbb{E}(\mathbf{x}y)$為最優線性最小二乘近似系數，則

\[\beta=\beta^* \]
等價于$\mathbb{E}(\mathbf{x}u)=0$，

該定理的證明非常簡單，需從必要性和充分性兩方面證明，在此不作展開，

該定理意味著，只要正交條件$\mathbb{E}(\mathbf{x}u)=0$滿足，那么線性回歸模型的引數值就等于最優線性最小二乘近似系數$\beta^*$，二者等價，

3 模型的正確設定

均值模型怎樣才是正確設定了？

定義5 條件均值模型的正確設定（Correct Model Specification in Conditional Mean）：線性回歸模型$y=\mathbf{x}'\beta+u, \beta\in\mathbb{R}^{k+1}$是條件均值$\mathbb{E}(y|\mathbf{x})$的正確設定，若存在某個引數$\beta^o \in \mathbb{R}^{k+1}$使得$\mathbb{E}(y|\mathbf{x})=\mathbf{x}'\beta$，
另一方面，若對于任意$\beta\in \mathbb{R}^{k+1}$均有$\mathbb{E}(y|\mathbf{x})\neq \mathbf{x}'\beta$，則線性回歸模型是對$\mathbb{E}(y|\mathbf{x})$的錯誤設定，

由該定義可以看到，線性回歸模型設定正確的條件是存在某一引數$\beta^o$使得$\mathbb{E}(u|\mathbf{x})=0$，換句話說，線性回歸模型設定正確的充要條件是$\mathbb{E}(u|\mathbf{x})=0$，其中$u=y-\mathbf{x}'\beta^o$，

下面的定理說明當均值模型設定正確時，回歸模型誤差項$u$與真實回歸擾動項$\varepsilon$的關系：

定理5 如果線性回歸模型$y=\mathbf{x}'\beta+u$是對條件均值$\mathbb{E}(y|\mathbf{x})$的正確設定，則
(1) 存在一個引數$\beta^o$和一個隨機變數$\varepsilon$，有$y=\mathbf{x}'\beta^o+\varepsilon$，其中$\mathbb{E}(\varepsilon|\mathbf{x})=0$；
(2) $\beta^*=\beta^o$，

由定義5可直接得到(1)，對于(2)，可由(1)的$\mathbb{E}(\varepsilon|\mathbf{x})=0$推出$\mathbb{E}(\mathbf{x}\varepsilon)=0$，再使用定理4即可得證，

為便于理解，下面用一個例子說明什么叫模型的正確設定和錯誤設定：

假設資料生成程序（DGP）為$y=1+\dfrac{1}{2}x_1+\dfrac{1}{4}(x_1^2-1)+\varepsilon$，其中$x_1$與$\varepsilon$是相互獨立的$\mathcal{N}(0,1)$隨機變數，現在如果我們用線性回歸模型$y=\mathbf{x}'\beta+u$對該DGP進行近似，其中$\mathbf{x}=(1,x_1)'$，

經計算，我們可以解得最優線性最小二乘近似$\beta^*=(1,\dfrac{1}{2})'$，而$g^*(\mathbf{x})=1+\dfrac{1}{2}x_1$，可以看到其中沒有包含非線性的部分，若在回歸模型中取$\beta=\beta^*$，由定理4，就有$\mathbb{E}(\mathbf{x}u)=0$，但是，此時$\mathbb{E}(u|\mathbf{x})=\dfrac{1}{4}(x_1^2-1)\neq 0$，即模型沒有正確設定，

模型沒有被正確設定，它會造成什么樣的后果？計算可知真正的期望邊際效應為$\dfrac{\mathbb{E}(y|\mathbf{x})}{dx_1}=\dfrac{1}{2}+\dfrac{1}{2}x_1$，但它不等于$\beta^*_1=\dfrac{1}{2}$，也就是說，模型的錯誤設定，會導致解出的最優線性最小二乘近似并不是真正的期望邊際效用，

參考資料

洪永淼《高級計量經濟學》，2011

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/246037.html

標籤：其他

上一篇：八、shell的管道

下一篇：API檔案管理