獨家思維導圖!讓你秒懂李宏毅2020機器學習(一)
前言:博主為一名大二本科生,最近決心開始看李宏毅的深度學習系列課程,每學一個階段決定寫篇博客來歸納記錄一下所學的東西,也希望自己的理解對大家有所幫助!
文章目錄
- 獨家思維導圖!讓你秒懂李宏毅2020機器學習(一)
- Introduction
- Regression
- 案例——預測寶可夢進化后的CP值
- Gradient Descent
- Gradient Descent的缺點
- 關于η(learning rate)的討論
- learning rate的重要性:(參考李宏毅老師的例子)
- Adaptive Learning rates
- Adagrad
- Stochastic Gradicent Descent
- How can we do better?
- 增加高次項
- 增加引數
- Where does the error come from?
- regulazation
- Model Selection
Introduction
第一課的內容我用借鑒李宏毅老師ppt所畫的一張圖來總結(就不再過多贅述了)

Regression
案例——預測寶可夢進化后的CP值
先與Introduction的部分回顧一下,確定
- Senario: Supervised Learining
- Task: Regresssion
- Model: 多種選擇

接下來用機器學習常見的三步來展現回歸的程序:

Gradient Descent
只要是可微分的,gradient descent都可以拿來尋找使Loss function最小的引數,

Gradient Descent的缺點
gradient descent有?個令?擔?的地?,也就是我之前?直提到的,它每次迭代完畢,尋找到的梯度為0的點必然是極?值點,local minima;卻不?定是最?值點,global minima
這會造成?個問題是說,如果loss function?得?較坑坑洼洼(極?值點?較多),?每次初始化 的取值?是隨機的,這會造成每次gradient descent停下來的位置都可能是不同的極?值點;?且當遇到梯度?較平緩(gradient≈0)的時候,gradient descent也可能會效率低下甚?可能會stuck卡住;


但是!在linear regression?,loss function實際上是convex的,是?個凸函式,是沒有local optimal 區域最優解的,他只有?個global minima,visualize出來的影像就是從?到外?圈?圈包圍起來的橢圓形的等?線(就像前?的等?線圖),因此隨便選?個起始點,根據gradient descent最終找出來的, 都會是同?組引數
關于η(learning rate)的討論
learning rate的重要性:(參考李宏毅老師的例子)
gradient descent程序中,影響結果的?個很關鍵的因素就是learning rate的??

- 如果learning rate剛剛好,就可以像下圖中紅?線段?樣順利地到達到loss的最?值
- 如果learning rate太?的話,像下圖中的藍?線段,雖然最后能夠?到local minimal的地?,但是它可能會?得?常慢,以?于你?法接受
- 如果learning rate太?,像下圖中的綠?線段,它的步伐太?了,它永遠沒有辦法?到特別低的地
?,可能永遠在這個“??”的?上振蕩??法?下去 - 如果learning rate?常?,就會像下圖中的??線段,?瞬間就?出去了,結果會造成update引數以后,loss反?會越來越?(這?點在上次的demo中有體會到,當lr過?的時候,每次更新loss 反?會變?)
Adaptive Learning rates
最基本、最簡單的?原則是:learning rate通常是隨著引數的update越來越?的
第一種常規想法:(t為updata的次數)

這種?法使所有引數以同樣的?式同樣的learning rate進?update,?最好的狀況是每個引數都給他不同的learning rate去update
Adagrad


最終得到Adagrad運算式

p.s.解釋運算式中一些矛盾的事情
我們在做gradient descent的時候,希望的是當梯度值即微分值越?的時候(此時斜率越?,還沒有接近最低點)更新的步伐要更??些,但Adagrad的運算式中,分?表?梯度越?步伐越?,分?卻表?梯度越?步伐越?,兩者似乎相互?盾
Adagrad要考慮的是,這個gradient有多surprise,即反差有多?,假設t=4的時候 與前?的gradient反差特別?,那么g^t與分母之間的??反差就會?較?,它們的商就會把這?反差效果體現出來

gradient越?,離最低點越遠這件事情在有多個引數的情況下是不?定成?的
如下圖所?,w1和w2分別是loss function的兩個引數,loss的值投影到該平?中以顏?深度表???,分別在w2和w1處垂直切??(這樣就只有另?個引數的gradient會變化),對應的情況為右邊的兩條 曲線,可以看出,?起a點,c點距離最低點更近,但是它的gradient卻越?

實際上,對于?個?次函式 來說,最?值點的x=-b/2a,?對于任意?點x0 ,它邁出最好的步伐?度是|x0+b/2a|=|2ax0+b/2a| (這樣就?步邁到最?值點了),聯系該函式的?階導數y’=2ax+b和?階導數y’’=2a ,可以發現最好的步伐?度是 |y’/y’’| ,也就是說他不僅跟?階導數(gradient)有關,還跟?階導數有關,因此我們可以通過這種?法重新?較上?的a和c點,就可以得到?較正確的答案,
在Adagrad運算式中,gt為一階導,分母反應二階導的大小,所以Adagrad想要做的事情就是,在不增加任何額外運算的前提下,想辦法去估測?次微分的值

Stochastic Gradicent Descent
李老師還介紹了一種梯度下降的方法Stochastic Gradicent Descent:
隨機梯度下降的?法可以讓訓練更快速,傳統的gradient descent的思路是看完所有的樣本點之后再構建loss function,然后去update引數;?stochastic gradient descent的做法是,看到?個樣本點就update?次,因此它的loss function不是所有樣本點的error平?和,?是這個隨機樣本點的error平?

stochastic gradient descent與傳統gradient descent的效果對?如下:

后面李老師介紹了特征縮放在梯度下降的應用和梯度下降的數學原理,在這里就不多做贅述了,
然后我來重點總結下如何更好的回歸擬合,
How can we do better?
我們有沒有辦法做得更好呢?這時就需要我們重新去設計model;如果仔細觀察?下上圖的data,就會發現在原先的cp值?較?和?較?的地?,預測值是相當不準的,
增加高次項
實際上,從結果來看,最終的function可能不是?條直線,可能是稍微更復雜?點的曲線,于是我們選擇增加高次項來優化,
考慮2次的model

考慮3次的model

考慮4次的model

考慮5次的model

5個model的對?
這5個model的training data的表現:隨著 的?次項的增加,對應的average error會不斷地減?;實際上這件事情?常容易解釋,實際上低次的式?是?次的式?的特殊情況(令?次項 對應的 為0,?次式就轉化成低次式)也就是說,在gradient descent可以找到best function的前提下(多次式為Non-linear model,存在local optimal區域最優解,gradient descent不?定能找到global minima),function所包含的項的次數越?,越復雜,error在training data上的表現就會越來越?;但是,我們關?的不是model在training data上的error表現,?是model在testing data上的error表現在training data上,model越復雜,error就會越低;但是在testing data上,model復雜到?定程度之后,error?但不會減?,反?會暴增,在該例中,從含有 項的model開始往后的model, testing data上的error出現了?幅增?的現象,通常被稱為overfitting過擬合

因此model不是越復雜越好,?是選擇?個最適合的model,在本例中,3次的式?是最適合的model
上面提到增加高次項優化回歸擬合,之后李老師又介紹了另一個優化的思路,增加新的input變數,即增加引數,
增加引數
這里李老師引入物種xs的影響


分別得到了改進后的在training data和testing data上測驗的結果:

可以看出,結果比之前要稍微好一點,
那為什么不設計個超級無敵復雜的最終model呢?這樣會不會更好呢?
考慮Hp值 、height值 、weight值的影響,設計出超復雜的model

算出的training error=1.9,但是,testing error=102.3!這么復雜的model很?概率會發?overfitting(overfitting實際上是我們多使?了?些input的變數或是變數的?次項使曲線跟training data擬合的更好,但不幸的是這些項并不是實際情況下被使?的,于是這個model在testing data上會表現得很糟糕),overfitting就相當于是那個范圍更?的?恩圖,它包含了更多的函式更?的范圍,代價就是在準確度上表現得更糟糕,
如果要更好的解釋這個error,我們需要引入兩種error,
Where does the error come from?
這里用思維導圖說明:

怎么樣?看了這個思維導圖是不是一目了然呢?
也就是說我們的作業需要找到實際error最小的點,使bias和variance的大小達到平衡,得到表現最好的model,
在這里補充一下regularization和model selection
regulazation

regularization就是在原來的loss function的基礎上加上了?項λ∑(wi) ,就是把這個model??所有的wi的平?和?λ加權,其作用是我們期待wi越小甚至接近于0的function,即比較平滑的function,
如果我們有?個?較平滑的function,由于輸出對輸?是不敏感的,測驗的時候,?些noises噪聲對這個平滑的function的影響就會?較?,?給我們?個?較好的結果
我們喜歡?較平滑的function,因為它對noise不那么sensitive;但是我們?不喜歡太平滑的function,因為它就失去了對data擬合的能?;?function的平滑程度,就需要通過調整λ來決定,
就像下圖中, 當λ=100時,在testing data上的error最?,因此我們選擇λ=100,

用剛剛bias和variance的幾何意義來解釋regularization的程序:

- 藍?區域代表最初的情況,此時model?較復雜,function set的space范圍?較?,包含了target
靶?,但由于data不夠,?較分散,variance?較?, - 紅?區域代表進?regularization之后的情況,此時model的function set范圍被縮?成只包含平滑的曲線,space減?,variance當然也跟著變?,但這個縮?后的space實際上并沒有包含原先已經包含 的target靶?,因此該model的bias變?,
- 橙?區域代表增?regularization的weight的情況,增?weight實際上就是放?function set的space,慢慢調整?包含target靶?,此時該model的bias變?,?相較于?開始的case,由于限定了 曲線的平滑度(由weight控制平滑度的閾值),該model的variance也?較?,
實際上,通過regularization優化model的程序就是上述的1、2、3步驟,不斷地調整regularization的weight,使model的bias和variance達到?個最佳平衡的狀態(可以通過error來評價狀態的好壞, weight需要慢慢調參),
Model Selection
接下來我們來說model selection(這部分會有點繞,講得不好還請多多包涵)

李老師指出了我們在選model時不應該做的事情:
即現在手頭上有training set(訓練集)和 testing set(測驗集),我用訓練集去訓練3個不同的model得到三個 f1*,f2*,f3*,再用我手頭上的測驗集去測驗這三個訓練出來的function,找出Error最小的即認為他的model是最好的,
這樣的理解是錯誤的!
原因在于我們?頭上的testing set,只是是我們??拿來衡量model好壞的testing set,而真正的testing set是我們還沒有,他是未知的;而我們手頭上的testing set有??的?個bias(可以理解為??的testing data跟實際的testing data會有?定的偏差存在),
所以用我們手頭上這個testing set來選擇最好的model的時候,它在真正的testing set上不?得是最好的model,通常是?較差的,所以你實際得到的error是會?于你在??的testing set上估測到的0.5,
那怎樣做才是正確的呢?

把training set分成兩組:
- training set(訓練集) —— training model
- validation set(驗證集) —— selecting model(not training model)
先用training set訓練出三個model的function ,接下來看?下它們在validation set上的performance
假設現在model3的performance最好,那你可以直接把這個model3的結果拿來apply在testing data上,如果你擔?現在把training set分成training和validation兩部分,感覺training data變少的話,可以這樣做:已經從validation決定model3是最好的model,那就定住model3不變(function的運算式不變),然后?全部的data在model3上?再訓練?次(使?全部的data去更新model3運算式的引數)
這個時候,如果你把這個訓練好的model的apply到public testing set上?,你可能會得到?個?于0.5的error,雖然這么做,你得到的error表?上看起來是?較?的,但是這個時候的error才能夠真正反映你在private set上的error,
training data(訓練集) -> ??的testing data(測驗集) -> 實際的testing data (該流程沒有考慮??的testing data的bias)
training set(部分訓練集) -> validation set(部分驗證集) -> ??的testing data(測驗集) -> 實際的testing data
(該流程使???的testing data和validation來模擬testing data的bias誤差,可以真實地反映出在實際的data上出現的error)
N-flod Cross Validation

當然分training set有很多種不確定因素,為避免偶然性,可以分多次,
例如可以把training set分成三份,你每?次拿其中?份當做validation set,另外兩份當training;分別在每個情境下都計算?下3個model的error,然后計算?下它的average error;然后你會發現在這三個情境下的average error,是model1最好,
然后接下來,你就把?整個完整的training data重新訓練?遍model1的引數;然后再去testing data上test,
原則上是,如果你少去根據public testing set上的error調整model的話,那你在private testing set上?得到的error往往是?較接近public testing set上的error的,
總結來說就是選擇model的時候呢,我們?頭上的testing data與真實的testing data之間是存在偏差的,因此我們要將training data分成training set和validation set兩部分,經過validation挑選出來的model再?全部的training data訓練?遍引數,最后?testing data去測驗error,這樣得到的error是模擬過testing bias的error,與實際情況下的error會?較符合
好的,關于李老師機器學習中introduction和regression的部分到此講完了,下篇講classification,
我總結的順序可能跟李老師上課時的不一樣,我根據自己的理解融合了某些章節的內容并調整了順序,同時,可能省略了一些推導,詳情還是多看老師視頻,看PPT回顧喲!
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/261490.html
標籤:AI
