AlexNet的特點
使用ReLU激活函式加速收斂
- 如何理解ReLU函式的非線性

Paper: ImageNet Classification with Deep Convolutional Neural Networks
Github：https://github.com/pytorch/vision/blob/master/torchvision/models/alexnet.py

AlexNet模型有多倫多大學，Geoff Hinton實驗室設計，奪得了2012年ImageNet ILSVRC比賽的冠軍，并且錯誤率遠低于第二名，使得卷積神經網路乃至深度學習重新引起了廣泛的關注，在此之前，由于受到計算機性能的影響，雖然LeNet在影像分類中取得了較好的成績，但是并沒有引起很多的關注，

AlexNet的特點

AlexNet是在LeNet的基礎上加深了網路的結構，學習更豐富更高維的影像特征，AlexNet的特點：

更深的網路結構，
使用ReLU激活函式加速收斂，
使用多GPU并行，加速訓練，也為之后的分組卷積（group convolution）理論奠定基礎，
使用資料增強，提出Dropout抑制過擬合，
使用交疊池化（Overlapping Pooling）防止過擬合，

使用`ReLU`激活函式加速收斂

在最初的感知機模型中，輸入和輸出的關系如下：

\[y=\sum_iw_ix_i+b \]

只是單純的線性關系，這樣的網路結構有很大的局限性：即使用很多這樣結構的網路層疊加，其輸出和輸入仍然是線性關系，無法處理有非線性關系的輸入輸出，因此，對每個神經元的輸出做非線性變換（激活函式）就非常重要，

在此之前，激活函式主要使用的是tanh:\(f(x)=tanh(x)\)以及sigmoid:\(f\left(x\right)=\frac1{1+\left(e^{-x}\right)^{-1}}\)，但是這些都是飽和激活函式，輸入值處于飽和區時（x→∞時），其梯度幾乎為0，因此收斂極慢！

針對這一問題，在AlexNet中引入了線性整流單元（Rectified Linear Units, ReLU）作為激活函式，即：\(f\left(x\right)=\max(0,x)\)，其不存在飽和區，導師始終為1，梯度更大，計算量也更少，因此收斂得更快，

如下圖所示，為tanh和`ReLU·的收斂速度對比：
tanh 和 ReLU 收斂速度對比

如何理解`ReLU`函式的非線性

這里有個問題，前面提到，激活函式要用非線性的，是為了使網路結構有更強的表達能力，但這里使用的ReLU本質上卻是個線性的分段函式，那是如何使用ReLU進行非線性變換的呢？

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/250094.html

標籤：其他

上一篇：網路攻防實訓第七天

下一篇：程式人生：出現問題時程式員最常見的反應，你占過沒？

AlexNet

AlexNet的特點

使用ReLU激活函式加速收斂

如何理解ReLU函式的非線性

使用`ReLU`激活函式加速收斂

如何理解`ReLU`函式的非線性