目錄
- AlexNet的特點
- 使用ReLU激活函式加速收斂
- 如何理解ReLU函式的非線性
Paper: ImageNet Classification with Deep Convolutional Neural Networks
Github:https://github.com/pytorch/vision/blob/master/torchvision/models/alexnet.py
AlexNet模型有多倫多大學,Geoff Hinton實驗室設計,奪得了2012年ImageNet ILSVRC比賽的冠軍,并且錯誤率遠低于第二名,使得卷積神經網路乃至深度學習重新引起了廣泛的關注,在此之前,由于受到計算機性能的影響,雖然LeNet在影像分類中取得了較好的成績,但是并沒有引起很多的關注,AlexNet的特點
AlexNet是在LeNet的基礎上加深了網路的結構,學習更豐富更高維的影像特征,AlexNet的特點:
- 更深的網路結構,
- 使用
ReLU激活函式加速收斂, - 使用多
GPU并行,加速訓練,也為之后的分組卷積(group convolution)理論奠定基礎, - 使用資料增強,提出
Dropout抑制過擬合, - 使用交疊池化(
Overlapping Pooling)防止過擬合,
使用ReLU激活函式加速收斂
在最初的感知機模型中,輸入和輸出的關系如下:
\[y=\sum_iw_ix_i+b \]只是單純的線性關系,這樣的網路結構有很大的局限性:即使用很多這樣結構的網路層疊加,其輸出和輸入仍然是線性關系,無法處理有非線性關系的輸入輸出,因此,對每個神經元的輸出做非線性變換(激活函式)就非常重要,
在此之前,激活函式主要使用的是tanh:\(f(x)=tanh(x)\)以及sigmoid:\(f\left(x\right)=\frac1{1+\left(e^{-x}\right)^{-1}}\),但是這些都是飽和激活函式,輸入值處于飽和區時(x→∞時),其梯度幾乎為0,因此收斂極慢!
針對這一問題,在AlexNet中引入了線性整流單元(Rectified Linear Units, ReLU)作為激活函式,即:\(f\left(x\right)=\max(0,x)\),其不存在飽和區,導師始終為1,梯度更大,計算量也更少,因此收斂得更快,
如下圖所示,為tanh和`ReLU·的收斂速度對比:

如何理解ReLU函式的非線性
這里有個問題,前面提到,激活函式要用非線性的,是為了使網路結構有更強的表達能力,但這里使用的ReLU本質上卻是個線性的分段函式,那是如何使用ReLU進行非線性變換的呢?
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/250094.html
標籤:其他
上一篇:網路攻防實訓 第七天
