【入門教程】?TensorFlow 2.0 模型：卷積神經網路-有解無憂

文 / 李錫涵，Google Developers Expert

本文節選自《簡單粗暴 TensorFlow 2.0》

在《【入門教程】TensorFlow 2.0 模型：多層感知機》里，我們以多層感知機（Multilayer Perceptron）為例，總體介紹了 TensorFlow 2.0 的模型構建、訓練、評估全流程，

本篇文章則以在影像領域常用的卷積神經網路為主題，介紹以下內容：

如何使用 tf.keras 構建卷積神經網路模型；
如何在自己的專案中快速載入并使用經典的卷積神經網路模型；
為深度學習的入門者簡介 卷積層 和 池化層 的原理，

使用 tf.keras 構建卷積神經網路模型

卷積神經網路 (Convolutional Neural Network, CNN) 是一種結構類似于人類或動物的視覺系統的人工神經網路，包含一個或多個卷積層 (Convolutional Layer)、池化層 (Pooling Layer) 和全連接層 (Fully-connected Layer)，

基礎知識和原理

臺灣大學李宏毅教授的《機器學習》課程的 Convolutional Neural Network 一章

UFLDL 教程 Convolutional Neural Network 一節

斯坦福課程 CS231n: Convolutional Neural Networks for Visual Recognition 中的 “Module 2: Convolutional Neural Networks” 部分

卷積神經網路的一個示例實作如下所示，和上節中的多層感知機在代碼結構上很類似，只是新加入了一些卷積層和池化層，這里的網路結構并不是唯一的，可以增加、洗掉或調整 CNN 的網路結構和引數，以達到更好的性能，

 1class CNN(tf.keras.Model):
 2    def __init__(self):
 3        super().__init__()
 4        self.conv1 = tf.keras.layers.Conv2D(
 5            filters=32,             # 卷積層神經元（卷積核）數目
 6            kernel_size=[5, 5],     # 感受野大小
 7            padding='same',         # padding策略（vaild 或 same）
 8            activation=tf.nn.relu   # 激活函式
 9        )
10        self.pool1 = tf.keras.layers.MaxPool2D(pool_size=[2, 2], strides=2)
11        self.conv2 = tf.keras.layers.Conv2D(
12            filters=64,
13            kernel_size=[5, 5],
14            padding='same',
15            activation=tf.nn.relu
16        )
17        self.pool2 = tf.keras.layers.MaxPool2D(pool_size=[2, 2], strides=2)
18        self.flatten = tf.keras.layers.Reshape(target_shape=(7 * 7 * 64,))
19        self.dense1 = tf.keras.layers.Dense(units=1024, activation=tf.nn.relu)
20        self.dense2 = tf.keras.layers.Dense(units=10)
21
22    def call(self, inputs):
23        x = self.conv1(inputs)                  # [batch_size, 28, 28, 32]
24        x = self.pool1(x)                       # [batch_size, 14, 14, 32]
25        x = self.conv2(x)                       # [batch_size, 14, 14, 64]
26        x = self.pool2(x)                       # [batch_size, 7, 7, 64]
27        x = self.flatten(x)                     # [batch_size, 7 * 7 * 64]
28        x = self.dense1(x)                      # [batch_size, 1024]
29        x = self.dense2(x)                      # [batch_size, 10]
30        output = tf.nn.softmax(x)
31        return output

示例代碼中的 CNN 結構圖示

上一篇文章我們介紹了 TensorFlow 2.0 的模型構建、訓練、評估全流程，此處，我們只需要將上一篇文章實體化模型時的代碼 model = MLP() 更換成我們上面實作的 CNN 模型類，即 model = CNN() ，即可使用新的模型在 MNIST 資料集上進行訓練，輸出如下：

1test accuracy: 0.988100

可以發現準確率相較于上篇文章的多層感知機有非常顯著的提高，事實上，通過改變模型的網路結構（比如加入 Dropout 層防止過擬合），準確率還有進一步提升的空間，

快速載入并使用經典的 CNN 模型

tf.keras.applications 中有一些預定義好的經典卷積神經網路結構，如 VGG16 、 VGG19 、 ResNet 、 MobileNet 等，我們可以直接呼叫這些經典的卷積神經網路結構，而無需手動定義網路結構，

例如，我們可以使用以下代碼來實體化一個 MobileNetV2 網路結構：

1model = tf.keras.applications.MobileNetV2()

當執行以上代碼時，TensorFlow 會自動從網路上下載 MobileNetV2 網路結構，因此在第一次執行代碼時需要具備網路連接，每個網路結構具有自己特定的詳細引數設定，常用引數如下：

input_shape ：輸入張量的形狀 (不含第一維的 Batch)，大多默認為 224 × 224 × 3 ，一般而言，模型對輸入張量的大小有下限限制，長和寬至少為 32 × 32 或 75 × 75 ；
include_top ：在網路的最后是否包含全連接層，默認為 True ；
weights ：預訓練權值，默認為 'imagenet' ，即為當前模型載入在 ImageNet 資料集上預訓練的權值，如需隨機初始化變數可設為 None ；
classes ：分類數，默認為 1000，修改該引數需要 include_top 引數為 True 且 weights 引數為 None ，

各網路模型引數的詳細介紹可參考 Keras 檔案，

以下展示一個例子，使用 MobileNetV2 網路在 tf_flowers 五分類資料集上進行訓練（為了代碼的簡短高效，在該示例中我們使用了 TensorFlow Datasets 和 tf.data 載入和預處理資料，在后面的連載中會專題介紹，或可參考手冊（TensorFlow Datasets、tf.data），通過將 weights 設定為 None ，我們隨機初始化變數而不使用預訓練權值，同時將 classes 設定為 5，對應于 5 分類的資料集，

 1import tensorflow as tf
 2import tensorflow_datasets as tfds
 3
 4num_batches = 1000
 5batch_size = 50
 6learning_rate = 0.001
 7
 8dataset = tfds.load("tf_flowers", split=tfds.Split.TRAIN, as_supervised=True)
 9dataset = dataset.map(lambda img, label: (tf.image.resize(img, [224, 224]) / 255.0, label)).shuffle(1024).batch(32)
10model = tf.keras.applications.DenseNet121(weights=None, classes=5)
11optimizer = tf.keras.optimizers.Adam(learning_rate=learning_rate)
12for images, labels in dataset:
13    with tf.GradientTape() as tape:
14        labels_pred = model(images)
15        loss = tf.keras.losses.sparse_categorical_crossentropy(y_true=labels, y_pred=labels_pred)
16        loss = tf.reduce_mean(loss)
17        print("loss %f" % loss.numpy())
18    grads = tape.gradient(loss, model.trainable_variables)
19    optimizer.apply_gradients(grads_and_vars=zip(grads, model.trainable_variables))

后文連載文章中，我們也會直接呼叫這些經典的網路結構來進行訓練，

卷積層和池化層的作業原理

卷積層（Convolutional Layer，以 tf.keras.layers.Conv2D 為代表）是 CNN 的核心組件，其結構與大腦的視覺皮層有類似之處，

回憶我們之前建立的神經細胞的計算模型以及全連接層，我們默認每個神經元與上一層的所有神經元相連，不過，在視覺皮層的神經元中，情況并不是這樣，你或許在生物課上學習過 感受野 （Receptive Field）這一概念，即視覺皮層中的神經元并非與前一層的所有神經元相連，而只是感受一片區域內的視覺信號，并只對區域區域的視覺刺激進行反應，CNN 中的卷積層正體現了這一特性，

例如，下圖是一個 7×7 的單通道圖片信號輸入：

如果使用之前基于全連接層的模型，我們需要讓每個輸入信號對應一個權值，即建模一個神經元需要 7×7=49 個權值（加上偏置項是 50 個），并得到一個輸出信號，如果一層有 N 個神經元，我們就需要 49N 個權值，并得到 N 個輸出信號，

而在 CNN 的卷積層中，我們這樣建模一個卷積層的神經元：

圖中 3×3 的紅框代表該神經元的感受野，由此，我們只需 3×3=9 個權值，外加 1 個偏置項，即可得到一個輸出信號，例如，對于紅框所示的位置，輸出信號即為對矩陣的所有元素求和并加上偏置項，記作，

不過，3×3 的范圍顯然不足以處理整個影像，因此我們使用滑動視窗的方法，使用相同的引數，但將紅框在影像中從左到右滑動，進行逐行掃描，每滑動到一個位置就計算一個值，例如，當紅框向右移動一個單位時，我們計算矩陣的所有元素的和并加上偏置項，記作，由此，和一般的神經元只能輸出 1 個值不同，這里的卷積層神經元可以輸出一個 5×5 的矩陣，

卷積示意圖，一個單通道的 7×7 影像在通過一個感受野為 3×3 ，引數為 10 個的卷積層神經元后，得到 5×5 的矩陣作為卷積結果

下面，我們使用 TensorFlow 來驗證一下上圖的計算結果，

將上圖中的輸入影像、權值矩陣和偏置項表示為 NumPy 陣列 image , W , b 如下：

1#TensorFlow 的影像表示為 [影像數目，長，寬，色彩通道數] 的四維張量
2#這里我們的輸入影像 image 的張量形狀為 [1, 7, 7, 1]
3image = np.array([[
4    [0, 0, 0, 0, 0, 0, 0],
5    [0, 1, 0, 1, 2, 1, 0],
6    [0, 0, 2, 2, 0, 1, 0],
7    [0, 1, 1, 0, 2, 1, 0],
8    [0, 0, 2, 1, 1, 0, 0],
9    [0, 2, 1, 1, 2, 0, 0],
10    [0, 0, 0, 0, 0, 0, 0]
11]], dtype=np.float32)
12image = np.expand_dims(image, axis=-1)  
13W = np.array([[
14    [ 0, 0, -1], 
15    [ 0, 1, 0 ], 
16    [-2, 0, 2 ]
17]], dtype=np.float32)
18b = np.array([1], dtype=np.float32)

然后建立一個僅有一個卷積層的模型，用 W 和 b 初始化 [4] ：

1model = tf.keras.models.Sequential([
2    tf.keras.layers.Conv2D(
3        filters=1,              # 卷積層神經元（卷積核）數目
4        kernel_size=[3, 3],     # 感受野大小
5        kernel_initializer=tf.constant_initializer(W),
6        bias_initializer=tf.constant_initializer(b)
7    )]
8)

最后將影像資料 image 輸入模型，列印輸出：

1output = model(image)
2print(tf.squeeze(output))

程式運行結果為：

1tf.Tensor(
2[[ 6.  5. -2.  1.  2.]
3 [ 3.  0.  3.  2. -2.]
4 [ 4.  2. -1.  0.  0.]
5 [ 2.  1.  2. -1. -3.]
6 [ 1.  1.  1.  3.  1.]], shape=(5, 5), dtype=float32)

可見與上圖中矩陣的值一致，

還有一個問題，以上假設圖片都只有一個通道（例如灰度圖片），但如果影像是彩色的（例如有 RGB 三個通道）該怎么辦呢？此時，我們可以為每個通道準備一個 3×3 的權值矩陣，即一共有 3×3×3=27 個權值，對于每個通道，均使用自己的權值矩陣進行處理，輸出時將多個通道所輸出的值進行加和即可，

可能有讀者會注意到，按照上述介紹的方法，每次卷積后的結果相比于原始影像而言，四周都會 “少一圈”，比如上面 7×7 的影像，卷積后變成了 5×5 ，這有時會為后面的作業帶來麻煩，因此，我們可以設定 padding 策略，在 tf.keras.layers.Conv2D 中，當我們將 padding 引數設為 same 時，會將周圍缺少的部分使用 0 補齊，使得輸出的矩陣大小和輸入一致，

最后，既然我們可以使用滑動視窗的方法進行卷積，那么每次滑動的步長是不是可以設定呢？答案是肯定的，通過 tf.keras.layers.Conv2D 的 strides 引數即可設定步長（默認為 1），比如，在上面的例子中，如果我們將步長設定為 2，輸出的卷積結果即會是一個 3×3 的矩陣，

事實上，卷積的形式多種多樣，以上的介紹只是其中最簡單和基礎的一種，更多卷積方式的示例可見 Convolution arithmetic ，

池化層（Pooling Layer）的理解則簡單得多，其可以理解為對影像進行降采樣的程序，對于每一次滑動視窗中的所有值，輸出其中的最大值（MaxPooling）、均值或其他方法產生的值，例如，對于一個三通道的 16×16 影像（即一個 16163 的張量），經過感受野為 2×2，滑動步長為 2 的池化層，則得到一個 883 的張量，

[4]
這里使用了較為簡易的 Sequential 模式建立模型，具體介紹可參考手冊，

福利 | 問答環節

在上一篇文章《TensorFlow 2.0 模型：多層感知機》中，我們對于部分具有代表性的問題回答如下：

Q1：有 labelimg 標注過了的 datasets 下載庫推薦嗎？自己標幾萬張是不可能完成的任務……
A：對于已有的經典資料集，可以參考 TensorFlow Datasets，TensorFlow Datasets 是一個開箱即用的資料集集合，包含數十種常用的機器學習資料集，通過簡單的幾行代碼即可將資料以 tf.data.Datasets 的格式載入，

Q2：Release版本啥時候出來呀？
A：目前 TensorFlow 2.0 已發布了 RC1 （Release Candidate 1）版本，可使用 pip install tensorflow==2.0.0-rc1 安裝，相信距離正式發布已經不會太遠了，

Q3：TensorFlow 的 keras 和 keras 庫本身性能有區別么？
A：TensorFlow 的 Keras（tf.keras）可以理解為與 TensorFlow 緊密整合的 Keras，支持 TensorFlow 的更多獨有特性（如 Eager Execution、TPU、基于 tf.distribution 的多 GPU 和多機訓練等），而這些特性能夠幫助你更高效地訓練模型，同時建議參考知乎問題：tf.keras 和 keras有什么區別？，

Q4：每次都是 mnist ，能不能在資料 pipeline 上面多一些敘述？
A：其實，在本文的“快速載入并使用經典的卷積神經網路模型”部分，我們已經開始使用 TensorFlow Datasets（TFDS）和 tf.data ，僅用短短數行就載入了 tf_flowers 花朵五分類資料集，并進行了影像大小轉換、打散及分批次等預處理，在后面的連載中，我們會專題介紹 TensorFlow Datasets（TFDS）和 tf.data，這兩個工具能夠幫助你高效、靈活地載入和處理大規模訓練資料，可參考：

Q5：最近在研究 object detection，想用 tensorflow-datasets 匯入 voc2007 資料集，但不知道怎么匯入，請問官方有比較好的演示代碼嗎？
A：您可以嘗試使用 TensorFlow Datasets 載入 voc2007 資料集，演示代碼如下：

1import tensorflow_datasets as tfds
2dataset = tfds.load("voc2007", split=tfds.Split.TRAIN)

是的，你沒看錯，就兩行哦！將資料集載入后，就可以使用 tf.data 方便高效地預處理和迭代讀取資料，以上是載入訓練集，載入測驗集和驗證集可將split=tfds.Split.TRAIN換為split=tfds.Split.TEST 和split=tfds.Split.VALIDATION ，

TensorFlow Datasets 的使用簡介及
TFDS 中載入 voc2007 資料集

Q6：資料集大，怎么處理？
A：在后面的連載中，我們會專題介紹 TensorFlow Datasets（TFDS）和 tf.data，這兩個工具能夠幫助你高效、靈活地載入和處理訓練大規模資料，

Q7：可不可以出點系統性的教程，入門好難
A：本系列教程《簡單粗暴 TensorFlow 2.0》即希望為 TensorFlow 初學者提供易于上手的系統指導，另外，TensorFlow的官方教程也經過了大量的更新以改善易讀性，可參考本鏈接，

如果也想像大神一樣快速進步，別錯過 TensorFlow 官方團隊在中國大學慕課平臺推出的《TensorFlow 入門實操課程》，幫助你了解更多機器學習設計思路和實踐模式，立即點擊此處學習吧！

有任何學習疑問，歡迎移步“問答”版塊發帖提問，你的問題有機會得到 CSDN 百大熱門技術博主、資深社區作者或者 TensorFlow 資深開發者的解答哦！同時，我們也歡迎你積極地在這個版塊里，回答其他小伙伴提出的問題，成為 CSDN 社區貢獻者，邁出出道第一步！馬上開始討論吧！

還想獲取更多入門課程和產品資訊？記得掃碼關注 TensorFlow 官方微信公眾號（ TensorFlow_official )！

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/248199.html

標籤：AI

上一篇：SCI-HUB 印度被訴、twitter賬號被封，是梁上君子還是羅賓漢？

下一篇：CSDN：2020年度CSDN博客之星評選競賽——180號【一個處女座的程式猿】，感謝您，投上的寶貴一票，感謝！感恩！