<style></style> <style></style> <style></style> <style></style>
人工神經網路(Artificial Neural Network,ANN) 是一種受人腦生物神經網路資訊處理方式啟發而誕生的一種計算模型,得益于語音識別、計算機視覺和文本處理方面的許多突破性成果,人工神經網路在機器學習研究和工業領域引起了強烈反響,本篇博客將對人工神經網路演算法進行介紹,
1 神經元節點¶
神經元是神經網路的最基本單元,它接收一個外部輸入資料或其他神經元節點的輸出作為輸入,經過計算后將產生一個輸出,每個神經元節點都有一個權重和偏置引數,權重象征著對應的輸入相對于其他輸入的重要程度,而偏置則是用于對權重與輸入的計算結果進行校正,如圖1所示:
圖1中的神經元節點接受$x_i$作為輸入,然后與相關聯的權重引數$w_i$相乘后求和,加上偏置$b$后使用函式$f$進行變換輸出獲得$y$作為這一神經元節點的輸出值,對于函式$f$,通常我們稱之為激活函式,其作用是添加一個非線性變換,這是至關重要的一步操作,因為現實世界中的絕大多數資料都不會是呈線性分布,如果沒有為網路中的神經元節點添加激活函式,整個網路只不過是多個線性分類器的組合,依然只能完成線任務,所以,神經元節點中的數學運算我們可以更一般化得表達為: $$y = Activation(\sum\limits_i^N {{w_i} \cdot {x_i} + b} )$$
激活函式接受一個數值作為輸入,對該數值進行非線性運算之后輸出一個數值作為結果,下面說說常見的幾個激活函式,
(1)sigmod函式
$$f(x) = \frac{1}{{1 + {e^{ - x}}}}$$
sigmoid函式可以將整個實數范圍的的任意值映射到[0,1]范圍內,當輸入值較大時,sigmoid將回傳一個接近于1的值,而當輸入值較小時,回傳值將接近于0,sigmod函式影像如圖2所示,
(2)Relu函式
$$f(x) = \max (0,x)$$
relu(Rectified Linear Units修正線性單元),是目前被使用最為頻繁得激活函式,relu函式在x<0時,輸出始終為0,由于x>0時,relu函式的導數為1,即保持輸出為x,所以relu函式能夠在x>0時保持梯度不斷衰減,從而緩解梯度消失的問題,還能加快收斂速度,還能是神經網路具有稀疏性表達能力,這也是relu激活函式能夠被使用在深層神經網路中的原因,由于當x<0時,relu函式的導數為0,導致對應的權重無法更新,這樣的神經元被稱為"神經元死亡",relu函式影像如圖3所示,
(3)softmax函式 $$f({x_i}) = \frac{{{e^{{x_i}}}}}{{\sum\limits_i {{e^{{x_i}}}} }}$$ softmax函式是sigmoid函式的進化,在處理分類問題是很方便,它可以將所有輸出映射到成概率的形式,即值在[0,1]范圍且總和為1,例如輸出變數為[1.5,4.4,2.0],經過softmax函式激活后,輸出為[0.04802413, 0.87279755, 0.0791784 ],分別對應屬于1、2、3類的概率,
2 前饋神經網路¶
前饋神經網路是的最原始也是最簡單的一種人工神經網路,前饋神經網路由多個層組成,每一層包含多個神經元節點,相鄰層直接神經元節點相互連接,每一條連接都有一個權重引數$w$與之關聯,如圖4所示,
前饋神經網路中層節點可以分為3類,
(1)輸入層節點,輸入層節點是前饋神經網路的第一層節點,作為外部資料到神經網路的入口而存在,輸入層節點不負責進行任何技術,只是將外部輸入的資料傳遞到隱藏層節點,
(2)隱藏層節點,隱藏層節點是前饋神經網路的中間部分,它不與外界進行直接接觸(這也是為什么成為隱藏層的原因),隱藏層節點負責對輸出層節點傳遞過來的資料進行一定運算,然后傳遞給輸出層,前饋神經網路可以零個或多個隱藏層,
(3)輸出層節點,輸出層節點是整個前饋神經網路結構上最末尾上一層的節點,負責將隱藏層中傳遞過來的資訊進行整合并輸出到外界,
在前饋網路中,資訊僅在一個方向上向前移動,即從輸入節點到隱藏節點(如果有)再到輸出節點不存在回圈或回路的情況,我們可以粗略地將前饋神經網路分為兩類:
(1)單層感知機模型,單層感知機模型是最簡單的一種神經網路模型,不包含隱藏層,也只能處理線性任務,關于單層感知機模型,請參考我的另一篇博客,
(2)多層感知機,多層干自己是單程感知機的進化版,其組成結構中至少包含一個隱藏層,且在層與層之間添加了激活函式進行非線性變換,使其可以適用于非線性任務中,下文中,我們將圍繞多層感知機對神經網路展開介紹,
3 多層感知機¶
如圖5所示是一個包含一個隱藏層的多層感知機,從圖中可以看出,節點直接的連接都有一個權值,當然,圖中只顯示了紅色節點的三個引數,
(1)輸入層,輸入層具有三個節點,偏置節點的值為$1$(有時候偏置并不會作為一個節點,而是作為下一層節點中的一個引數而存在),其它兩個節點將$X1$和$X2$作為外部輸入(其數值取決于輸入資料集),如上所述,在輸入層中不執行任何計算,因此輸入層中節點的輸出分別為$1$、$X1$和$X2$,它們被饋送到隱藏層,
(2)隱藏層,圖5所示網路結構隱藏層中同樣具有三個節點,其偏置節點的輸出為1,隱藏層中其他兩個節點的輸出取決于輸入層$(1,X1,X2)$的輸出以及與之相關的權值,權值與$(1,X1,X2)$運算后使用激活函式$f$進行非線性變換,最終的結果作為輸出傳遞到下一層,
(3)輸出層,輸出層具有兩個節點,這兩個節點從隱藏層獲取輸入,并執行與紅色隱藏層節點所示的類似計算,計算結果(Y1和Y2)用作為多層感知器的輸出,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/31217.html
標籤:其他
下一篇:卷積神經網路入門篇
