近期閱讀了《白話機器學習的數學》，為了將所讀的內容充分理解消化，故將整理一系列文章，該篇是上一篇文章的續篇，

1.設定問題

基于廣告費預測網站的點擊量

2. 定義模型

假設點擊量只與廣告費這一個變數有關，現有一些資料（廣告費與對應點擊量的值），在坐標系中表示為下圖

為了找出廣告費與點擊量之間的關系，可借助數學運算式即定義模型，為了方便，由上圖建立廣告費（x）與點擊量（y)之間的函式關系為 f θ ( x ) = θ 0 + θ 1 x f_{\theta}(x)=\theta_{0}+\theta_{1}x fθ?(x)=θ0?+θ1?x即一次函式，這里的 f θ f_\theta fθ? 是指含有引數（變數）的函式，采用 θ 0 \theta_0 θ0? 和 θ 1 \theta_1 θ1? 代表變數，在機器學習中稱為引數，一次函式的模型如下圖：

一次函式
機器學習中，變數或者預測值統稱為引數，

3.如何求參

根據定義的模型求得的值與真實值存在一定的偏差，我們的目標就是使定義的模型求得的值盡可能貼近真實的值，也就是使模型的值與真實值的差值越來越小，

3.1 最小二乘法

最小二乘法就是不斷修改引數的值，使得誤差越來越小，

Q1：誤差怎么表示？
A1：按照設定的模型，由已知資料來求 θ 0 \theta_0 θ0? 和 θ 1 \theta_1 θ1? ，由于 f θ ( x ) f_{\theta}(x) fθ?(x) 求得的值與實際值是有誤差的，我們的目標就是將模型求得的值接近真實值，即使所有資料的誤差和降到最小，誤差表示為： E ( θ ) = 1 2 ∑ i = 1 n ( y ( i ) ? f θ ( x ( i ) ) ) 2 E(\theta)=\frac{1}{2}\sum_{i=1}^{n}(y^{(i)}-f_{\theta}(x^{(i)}))^{2} E(θ)=21?∑i=1n?(y(i)?fθ?(x(i)))2 ， E ( θ ) E(\theta) E(θ)也稱為目標函式，令其最小，其中 y ( i ) 和 f θ ( x ( i ) ) y^{(i)} 和 f_{\theta}(x^{(i)}) y(i)和fθ?(x(i))不是指y和f的i次冪，而是指第i個資料對應的實際的值和模型計算的值，

Q2：為什么 E ( θ ) E(\theta) E(θ)是兩者之差的平方而不是絕對值
A2：平方方便求微分（求導），而絕對值可能還需要對某些值的大小進行討論

Q3：為什么需要乘 1 2 \frac{1}{2} 21?？
A3：結果導向，為了使最后的結果更加簡單

為了求 E ( θ ) E(\theta) E(θ)的最小值，對 E ( θ ) E(\theta) E(θ)函式微分，以微分后的結果判斷下一步 θ 0 \theta_0 θ0?和 θ 1 \theta_1 θ1?要調整的值，這里 x ( i ) x^{(i)} x(i)和 y ( i ) y^{(i)} y(i)為資料，值是已知的，

Q4：由微分結果如何調整引數的值？
A4：找到導數等于0的位置

最速下降法/梯度下降法

簡單理解就是根據微分后的結果調整引數，
結合這個模型， E ( θ ) E(\theta) E(θ)含有兩個引數 θ 0 \theta_0 θ0?和 θ 1 \theta_1 θ1?，這里就用到偏微分（偏微分是對含有多個變數的運算式微分的方法，當對某一個變數微分時，其他的變數視為常量），
若直接使用 E ( θ ) E(\theta) E(θ)對 θ 0 \theta_0 θ0?和 θ 1 \theta_1 θ1?偏微分，需要將 E ( θ ) E(\theta) E(θ)的運算式展開，很復雜，這里使用復合函式求偏微分，以下為具體程序：
令 u = E ( θ ) , v = f θ ( x ) ? u ? θ = ? u ? v ? ? v ? θ 令\ u=E(\theta),\ v=f_\theta(x) \qquad \frac{\vartheta u}{\vartheta \theta}=\frac{\vartheta u}{\vartheta v}·\frac{\vartheta v}{\vartheta \theta} 令 u=E(θ), v=fθ?(x)?θ?u?=?v?u???θ?v?
對第一個引數偏微分
因此
對第一個引數偏微分2
則 θ 0 \theta_0 θ0?的更新運算式為 θ 0 : = θ 0 ? η ∑ i = 1 n ( f θ ( x ( i ) ) ? y ( i ) ) \theta_0 :=\theta_0-\eta\sum_{i=1}^{n}(f_\theta(x^{(i)})-y^{(i)}) θ0?:=θ0??ηi=1∑n?(fθ?(x(i))?y(i))
同理可求得 θ 1 \theta_1 θ1?的更新運算式為 θ 1 : = θ 1 ? η ∑ i = 1 n ( f θ ( x ( i ) ) ? y ( i ) ) x ( i ) \theta_1:=\theta_1-\eta\sum_{i=1}^{n}(f_\theta(x^{(i)})-y^{(i)})x^{(i)} θ1?:=θ1??ηi=1∑n?(fθ?(x(i))?y(i))x(i)
其中 := 意為使用上一次的值更新下一次的值， η \eta η為學習率
學習率的確定需要不斷嘗試，若學習率太大，則會出現發散現象，可能在一個“谷底”蕩來蕩去無法收斂；學習率太小，則收斂速度則會很慢，
缺點：收斂速度慢，并且找的可能是“區域最優解”

3.2 多項式回歸

將廣告費與點擊量之間的模型定義為 f θ ( x ) = θ 0 + θ 1 x f_\theta(x)=\theta_0+\theta_1x fθ?(x)=θ0?+θ1?x，模型是線性的，也稱為線性回歸，對于資料散點圖來說，曲線的模擬則會更貼合這些資料，方便起見，將模型定義為二次函式，如下圖所示，
二次函式模型
像這樣，增加預測函式中多項式的次數的方法稱為多項式回歸，多項式回歸能夠對非線性的資料進行預測，

此時預測函式為： f θ ( x ) = θ 0 + θ 1 x + θ 2 x 2 f_\theta(x)=\theta_0+\theta_1x+\theta_2{x^2} fθ?(x)=θ0?+θ1?x+θ2?x2
當然這里也可以定義更高階的函式，越高階擬合效果越好，但可能會造成過擬合，
求引數的方法是一樣的，也是對各個引數求偏導，
θ 0 : = θ 0 ? η ∑ i = 1 n ( f θ ( x ( i ) ) ? y ( i ) ) \theta_0 :=\theta_0-\eta\sum_{i=1}^{n}(f_\theta(x^{(i)})-y^{(i)}) θ0?:=θ0??ηi=1∑n?(fθ?(x(i))?y(i))
θ 1 : = θ 1 ? η ∑ i = 1 n ( f θ ( x ( i ) ) ? y ( i ) ) x ( i ) \theta_1:=\theta_1-\eta\sum_{i=1}^{n}(f_\theta(x^{(i)})-y^{(i)})x^{(i)} θ1?:=θ1??ηi=1∑n?(fθ?(x(i))?y(i))x(i)
θ 2 : = θ 2 ? η ∑ i = 1 n ( f θ ( x ( i ) ) ? y ( i ) ) ( x ( i ) ) 2 \theta_2:=\theta_2-\eta\sum_{i=1}^{n}(f_\theta(x^{(i)})-y^{(i)})(x^{(i)})^2 θ2?:=θ2??ηi=1∑n?(fθ?(x(i))?y(i))(x(i))2

如果有 θ 3 \theta_3 θ3?、 θ 4 \theta_4 θ4?也是一樣的方法，

3.3多重回歸

目前為止討論網站的點擊量還是只與廣告費這一個因素有關，實際上點擊量是與多個因素相關的，也即存在多個變數，像這樣包含了多個變數的回歸稱為多重回歸，這里假設點擊量與廣告費 x 1 x_1 x1?、廣告欄的長度 x 2 x_2 x2?和寬度 x 3 x_3 x3?這三個變數有關

預測函式為 f θ ( x 1 , x 2 ， x 3 ) = θ 0 + θ 1 x 1 + θ 2 x 2 + θ 3 x 3 f_\theta(x_1,x_2，x_3)=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_3 fθ?(x1?,x2?，x3?)=θ0?+θ1?x1?+θ2?x2?+θ3?x3?
要求出引數 θ 0 \theta_0 θ0?、 θ 1 \theta_1 θ1?和 θ 2 \theta_2 θ2?的值，一樣是對各個變數使用復合函式求偏導，

θ 0 : = θ 0 ? η ∑ i = 1 n ( f θ ( x ( i ) ) ? y ( i ) ) \theta_0 :=\theta_0-\eta\sum_{i=1}^{n}(f_\theta(x^{(i)})-y^{(i)}) θ0?:=θ0??ηi=1∑n?(fθ?(x(i))?y(i))
θ 1 : = θ 1 ? η ∑ i = 1 n ( f θ ( x 1 ( i ) ) ? y ( i ) ) x 1 ( i ) \theta_1:=\theta_1-\eta\sum_{i=1}^{n}(f_\theta(x_1^{(i)})-y^{(i)})x_1^{(i)} θ1?:=θ1??ηi=1∑n?(fθ?(x1(i)?)?y(i))x1(i)?
θ 2 : = θ 2 ? η ∑ i = 1 n ( f θ ( x 2 ( i ) ) ? y ( i ) ) x 2 ( i ) \theta_2:=\theta_2-\eta\sum_{i=1}^{n}(f_\theta(x_2^{(i)})-y^{(i)})x_2^{(i)} θ2?:=θ2??ηi=1∑n?(fθ?(x2(i)?)?y(i))x2(i)?
θ 3 : = θ 3 ? η ∑ i = 1 n ( f θ ( x 3 ( i ) ) ? y ( i ) ) x 3 ( i ) \theta_3:=\theta_3-\eta\sum_{i=1}^{n}(f_\theta(x_3^{(i)})-y^{(i)})x_3^{(i)} θ3?:=θ3??ηi=1∑n?(fθ?(x3(i)?)?y(i))x3(i)?

為了一般化，假設這里有n個變數，則預測函式為：
f θ ( x 1 , x 2 , . . . , x n ) = θ 0 + θ 1 x 1 + θ 2 x 2 + . . . + θ n x n f_\theta(x_1,x_2, ..., x_n)=\theta_0+\theta_1x_1+\theta_2x_2+...+\theta_nx_n fθ?(x1?,x2?,...,xn?)=θ0?+θ1?x1?+θ2?x2?+...+θn?xn?

求第 j 個的引數的運算式為
θ j : = θ j ? η ∑ i = 1 n ( f θ ( x j ( i ) ) ? y ( i ) ) x j ( i ) \theta_j:=\theta_j-\eta\sum_{i=1}^{n}(f_\theta(x_j^{(i)})-y^{(i)})x_j^{(i)} θj?:=θj??ηi=1∑n?(fθ?(xj(i)?)?y(i))xj(i)?

為了簡化預測函式，可以將引數和變數表示成列向量，如下：
列向量1 列向量2

為了便于運算和對齊，可添加 x 0 = 1 x_0=1 x0?=1，如下
列向量3

預測函式的運算式為 θ \theta θ的轉置與 x x x的乘積，即 f θ ( x ) = θ T X f_\theta(x)=\theta^TX fθ?(x)=θTX

3.4隨機階梯下降法求參

最速下降法求參運算式為 θ j : = θ j ? η ∑ i = 1 n ( f θ ( x j ( i ) ) ? y ( i ) ) x j ( i ) \theta_j:=\theta_j-\eta\sum_{i=1}^{n}(f_\theta(x_j^{(i)})-y^{(i)})x_j^{(i)} θj?:=θj??ηi=1∑n?(fθ?(xj(i)?)?y(i))xj(i)?這里是使用了所有的 x , y x,y x,y即資料，對于資料量巨大的情況，該方法的速度慢，計算量大；另外還可能找不到最優解或只找到區域最優解，
隨機階梯下降法是隨機選擇一個資料進行更新引數的值，則引數運算式為 θ j : = θ j ? η f θ ( x j ( k ) ) ? y ( k ) ) x j ( k ) \theta_j:=\theta_j-\eta f_\theta(x_j^{(k)})-y^{(k)})x_j^{(k)} θj?:=θj??ηfθ?(xj(k)?)?y(k))xj(k)?由于每次是隨機選取一個資料進行更新引數的，因此不會陷入區域最優解，雖然有些難以置信，但該方法的結果確實會收斂，
此外，還可以選取一部分資料來求參，稱為小批量梯度下降法，假設抽取k個資料，構成集合 K K K，則求參運算式為 θ j : = θ j ? η ∑ k ∈ K ( f θ ( x j ( k ) ) ? y ( k ) ) x j ( k ) \theta_j:=\theta_j-\eta\sum_{k\in K}(f_\theta(x_j^{(k)})-y^{(k)})x_j^{(k)} θj?:=θj??ηk∈K∑?(fθ?(xj(k)?)?y(k))xj(k)?

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/347049.html

標籤：AI

上一篇：人工智能之數學基礎篇—微積分

下一篇：Python+OpenCV數字影像處理，彩色空間變換（HSI和RGB空間轉換）

機器學習之回歸