背景:一直想要梳理一下自己對廣義線性模型的認識及思考,所有就有了這篇隨筆,
前提:
1、首先明確,介紹模型會按照模型的三要素來展開,即模型(模型的引數空間),策略(如何選擇最優模型,一般指代價函式/損失函式),演算法(模型學習引數的方法,包括最優化方法等)
2、因為介紹的模型都是線性模型及其演化,有個概念必須要介紹
超平面:N維空間的N-1維子空間,比如當N=2時,超平面就是二維空間中的一條線
一、線性回歸
該演算法主要擬合一個線性超平面,用于回歸任務(預測值為連續值),舉個例子,房價預測任務,如果只考慮房屋面積,則訓練出的超平面及為二維空間關于面積和房價的直線,
模型:
若樣本用d維特征來表示,則有

使用向量的形式表示為

則模型的引數空間為w及b
策略:

最小化均方誤差
演算法:
這里有兩種方法,
一種方法是算出引數的運算式,直接求解(該方法一般不使用,原因隨著特征或者樣本數量增長,計算的時間復雜度指數級增加),如下



另一種方法是最優化理論中的迭代方法,最常用的是梯度下降法,引數通過加上負梯度進行更新,
求梯度

使用梯度對引數進行更新(這里使用的是批梯度下降演算法)

問題:當目標變數與特征之間為非線性關系,我們又該怎樣去擬合呢
二、多項式回歸
思路如下圖所示

模型整體和線性回歸相似,所以這里不展開討論
問題:線性回歸可以解決回歸問題,那針對分類問題,我們應該怎樣用線性模型去解決呢?
三、感知機
線性回歸在N維空間中找到了線性超平面去擬合資料,同時,該線性超平面也把特征空間劃分成了兩份,據此,我們可以思考,這個超平面可以拿來進行分類嗎?當然可以,感知機就是這樣做的,
模型:

我們可以看到,感知機就是使用sign函式對線性回歸結果映射到了{-1,1}
策略:

演算法:


問題:感知機可以用于分類,且能夠輸出預測樣本對應的類別,但清楚感知機原理的我們知道,雖然有可能N個樣本都被預測為A類,但實際他們屬于A類的可能性是不同的,具體表現在有的樣本點在特征空間中距離分類超平面比較近,有的則比較遠;鑒于此,我們能不能輸出某樣本屬于A類別的概率呢?
四、邏輯回歸(logistics regression)
模型:
感知機使用線性回歸模型作為分類超平面,將線性回歸結果映射到{-1,1}的離散集合上

其中紅框的值域為負無窮到正無窮,那我們能不能使用一個函式將其映射到[0,1]呢,邏輯回歸便是選擇了sigmoid函式進行映射,


該函式既可以實作區間映射,又具有單調可微的特性(方便使用迭代的最優化方法計算模型引數)
另外,對于“邏輯回歸”的名字,很多人覺得這是個“假名”,“誤匯入”,認為它明明是分類演算法卻叫做“回歸”
其實,他還真的和名字所述,是對“對數”進行了“回歸”
上一個公式可以變化為

定義y/1-y為事件發生的“幾率”,則邏輯回歸的是指是對幾率的對數進行回歸擬合,
策略:
采用極大似然估計

演算法:
由于目標函式連續可導,根據凸優化理論,可以通過一階法(梯度下降等)或二階法(牛頓法)等進行引數迭代計算

問題:對于分類任務,感知機和邏輯回歸都只能處理線性可分的任務,那如何才能處理線性不可分的任務呢?而且按照之前感知機迭代求解分類超平面的方式,我們只是在眾多的符合條件的分類超平面中選擇了一個,那能否選擇一個相對更好一些的分類超平面呢?
五、支持向量機(SVM)
支持向量機通過以下思路解決了上述問題:
(1)針對分類超平面的選擇問題,SVM采用最大間隔的方法,使超平面距離兩側不同類別的點盡可能地遠

(2)針對在當前維度的特征空間下線性不可分的問題,我們對其進行維度擴張,在更高的維度對其進行線性劃分,在當前維度線性不可分不代表在更高維度線性不可分,舉個例子,演員拍攝吻戲經常采用錯位的方式,在鏡頭所能看到的二維平面中,找不到一條直線將他們的嘴分割開來,但考慮三維空間,在一個現場作業人員看來,有大量的可選平面將他們兩人的嘴分開,再比如下圖中的異或問題


接下來又有另一個問題,我們已經用高維向量計算表示出了最大分類間隔,那怎樣去表示具體的高維向量呢,考慮到維度可能會很高,計算復雜度可能會很大,我們可以采用核函式來進行等價計算


支持向量機的核心就是以上兩點,更多細節可以看一下其他的博客或書籍,篇幅原因不再展開
問題:除了SVM之外,還有其他方法可以解決線性不可分問題嗎?
六、神經網路
神經網路通過特征之間的組合(多層),不僅能夠解決線性不可分問題,還能夠保留資料的時空結構(有位置關系的影像資料和有時間先后關系的自然語言),再該類資料集上表現出強大的應用能力,
總之,當前kaggle上表現最好的兩類演算法,梯度提升演算法更加適合于表格型別結構的資料,需要進行特征工程,對少量樣本也能學習到較好的模型;神經網路更加適合有時空結構的資料,不需要復雜的特征工程,是端對端的學習,但需要大量的訓練資料作為支撐,
個人認為神經網路的強悍之處在于對時空資料的保留與學習能力+無處不在的特征組合,

神經網路具體內容略多,不展開啦,本文重點梳理思路,
參考:
https://www.cnblogs.com/huangyc/p/9706575.html
https://blog.csdn.net/qq_36523839/article/details/82924804
李航-統計學習方法
周志華-機器學習
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/45451.html
標籤:其他
上一篇:小白求教電腦上網問題
