文 / 李錫涵,Google Developers Expert
本文節選自《簡單粗暴 TensorFlow 2.0》

在《【入門教程】TensorFlow 2.0 模型:多層感知機》 里,我們以多層感知機(Multilayer Perceptron)為例,總體介紹了 TensorFlow 2.0 的模型構建、訓練、評估全流程,
本篇文章則以在影像領域常用的卷積神經網路為主題,介紹以下內容:
-
如何使用 tf.keras 構建卷積神經網路模型;
-
如何在自己的專案中快速載入并使用經典的卷積神經網路模型;
-
為深度學習的入門者簡介 卷積層 和 池化層 的原理,
使用 tf.keras 構建卷積神經網路模型
卷積神經網路 (Convolutional Neural Network, CNN) 是一種結構類似于人類或動物的視覺系統的人工神經網路,包含一個或多個卷積層 (Convolutional Layer)、池化層 (Pooling Layer) 和全連接層 (Fully-connected Layer),
基礎知識和原理
臺灣大學李宏毅教授的《機器學習》課程的 Convolutional Neural Network 一章
UFLDL 教程 Convolutional Neural Network 一節
斯坦福課程 CS231n: Convolutional Neural Networks for Visual Recognition 中的 “Module 2: Convolutional Neural Networks” 部分
卷積神經網路的一個示例實作如下所示,和上節中的 多層感知機 在代碼結構上很類似,只是新加入了一些卷積層和池化層,這里的網路結構并不是唯一的,可以增加、洗掉或調整 CNN 的網路結構和引數,以達到更好的性能,
1class CNN(tf.keras.Model):
2 def __init__(self):
3 super().__init__()
4 self.conv1 = tf.keras.layers.Conv2D(
5 filters=32, # 卷積層神經元(卷積核)數目
6 kernel_size=[5, 5], # 感受野大小
7 padding='same', # padding策略(vaild 或 same)
8 activation=tf.nn.relu # 激活函式
9 )
10 self.pool1 = tf.keras.layers.MaxPool2D(pool_size=[2, 2], strides=2)
11 self.conv2 = tf.keras.layers.Conv2D(
12 filters=64,
13 kernel_size=[5, 5],
14 padding='same',
15 activation=tf.nn.relu
16 )
17 self.pool2 = tf.keras.layers.MaxPool2D(pool_size=[2, 2], strides=2)
18 self.flatten = tf.keras.layers.Reshape(target_shape=(7 * 7 * 64,))
19 self.dense1 = tf.keras.layers.Dense(units=1024, activation=tf.nn.relu)
20 self.dense2 = tf.keras.layers.Dense(units=10)
21
22 def call(self, inputs):
23 x = self.conv1(inputs) # [batch_size, 28, 28, 32]
24 x = self.pool1(x) # [batch_size, 14, 14, 32]
25 x = self.conv2(x) # [batch_size, 14, 14, 64]
26 x = self.pool2(x) # [batch_size, 7, 7, 64]
27 x = self.flatten(x) # [batch_size, 7 * 7 * 64]
28 x = self.dense1(x) # [batch_size, 1024]
29 x = self.dense2(x) # [batch_size, 10]
30 output = tf.nn.softmax(x)
31 return output

示例代碼中的 CNN 結構圖示
上一篇文章 我們介紹了 TensorFlow 2.0 的模型構建、訓練、評估全流程,此處,我們只需要將上一篇文章實體化模型時的代碼 model = MLP() 更換成我們上面實作的 CNN 模型類,即 model = CNN() ,即可使用新的模型在 MNIST 資料集上進行訓練,輸出如下:
1test accuracy: 0.988100
可以發現準確率相較于上篇文章的 多層感知機 有非常顯著的提高,事實上,通過改變模型的網路結構(比如加入 Dropout 層防止過擬合),準確率還有進一步提升的空間,
快速載入并使用經典的 CNN 模型
tf.keras.applications 中有一些預定義好的經典卷積神經網路結構,如 VGG16 、 VGG19 、 ResNet 、 MobileNet 等,我們可以直接呼叫這些經典的卷積神經網路結構,而無需手動定義網路結構,
例如,我們可以使用以下代碼來實體化一個 MobileNetV2 網路結構:
1model = tf.keras.applications.MobileNetV2()
當執行以上代碼時,TensorFlow 會自動從網路上下載 MobileNetV2 網路結構,因此在第一次執行代碼時需要具備網路連接,每個網路結構具有自己特定的詳細引數設定,常用引數如下:
-
input_shape:輸入張量的形狀 (不含第一維的 Batch),大多默認為224 × 224 × 3,一般而言,模型對輸入張量的大小有下限限制,長和寬至少為32 × 32或75 × 75; -
include_top:在網路的最后是否包含全連接層,默認為True; -
weights:預訓練權值,默認為'imagenet',即為當前模型載入在 ImageNet 資料集上預訓練的權值,如需隨機初始化變數可設為None; -
classes:分類數,默認為 1000,修改該引數需要include_top引數為True且weights引數為None,
各網路模型引數的詳細介紹可參考 Keras 檔案 ,
以下展示一個例子,使用 MobileNetV2 網路在 tf_flowers 五分類資料集上進行訓練(為了代碼的簡短高效,在該示例中我們使用了 TensorFlow Datasets 和 tf.data 載入和預處理資料,在后面的連載中會專題介紹,或可參考手冊(TensorFlow Datasets、tf.data),通過將 weights 設定為 None ,我們隨機初始化變數而不使用預訓練權值,同時將 classes 設定為 5,對應于 5 分類的資料集,
1import tensorflow as tf
2import tensorflow_datasets as tfds
3
4num_batches = 1000
5batch_size = 50
6learning_rate = 0.001
7
8dataset = tfds.load("tf_flowers", split=tfds.Split.TRAIN, as_supervised=True)
9dataset = dataset.map(lambda img, label: (tf.image.resize(img, [224, 224]) / 255.0, label)).shuffle(1024).batch(32)
10model = tf.keras.applications.DenseNet121(weights=None, classes=5)
11optimizer = tf.keras.optimizers.Adam(learning_rate=learning_rate)
12for images, labels in dataset:
13 with tf.GradientTape() as tape:
14 labels_pred = model(images)
15 loss = tf.keras.losses.sparse_categorical_crossentropy(y_true=labels, y_pred=labels_pred)
16 loss = tf.reduce_mean(loss)
17 print("loss %f" % loss.numpy())
18 grads = tape.gradient(loss, model.trainable_variables)
19 optimizer.apply_gradients(grads_and_vars=zip(grads, model.trainable_variables))
后文連載文章中,我們也會直接呼叫這些經典的網路結構來進行訓練,
卷積層和池化層的作業原理
卷積層(Convolutional Layer,以
tf.keras.layers.Conv2D為代表)是 CNN 的核心組件,其結構與大腦的視覺皮層有類似之處,
回憶我們之前建立的 神經細胞的計算模型 以及全連接層,我們默認每個神經元與上一層的所有神經元相連,不過,在視覺皮層的神經元中,情況并不是這樣,你或許在生物課上學習過 感受野 (Receptive Field)這一概念,即視覺皮層中的神經元并非與前一層的所有神經元相連,而只是感受一片區域內的視覺信號,并只對區域區域的視覺刺激進行反應,CNN 中的卷積層正體現了這一特性,
例如,下圖是一個 7×7 的單通道圖片信號輸入:
如果使用之前基于全連接層的模型,我們需要讓每個輸入信號對應一個權值,即建模一個神經元需要 7×7=49 個權值(加上偏置項是 50 個),并得到一個輸出信號,如果一層有 N 個神經元,我們就需要 49N 個權值,并得到 N 個輸出信號,
而在 CNN 的卷積層中,我們這樣建模一個卷積層的神經元:圖中 3×3 的紅框代表該神經元的感受野,由此,我們只需 3×3=9 個權值
,外加 1 個偏置項
,即可得到一個輸出信號,例如,對于紅框所示的位置,輸出信號即為對矩陣
的所有元素求和并加上偏置項
,記作
,
不過,3×3 的范圍顯然不足以處理整個影像,因此我們使用滑動視窗的方法,使用相同的引數,但將紅框在影像中從左到右滑動,進行逐行掃描,每滑動到一個位置就計算一個值,例如,當紅框向右移動一個單位時,我們計算矩陣
的所有元素的和并加上偏置項
,記作
,由此,和一般的神經元只能輸出 1 個值不同,這里的卷積層神經元可以輸出一個 5×5 的矩陣
,
卷積示意圖,一個單通道的 7×7 影像在通過一個感受野為 3×3 ,引數為 10 個的卷積層神經元后,得到 5×5 的矩陣作為卷積結果
下面,我們使用 TensorFlow 來驗證一下上圖的計算結果,
將上圖中的輸入影像、權值矩陣和偏置項
表示為 NumPy 陣列
image,W,b如下:
1#TensorFlow 的影像表示為 [影像數目,長,寬,色彩通道數] 的四維張量
2#這里我們的輸入影像 image 的張量形狀為 [1, 7, 7, 1]
3image = np.array([[
4 [0, 0, 0, 0, 0, 0, 0],
5 [0, 1, 0, 1, 2, 1, 0],
6 [0, 0, 2, 2, 0, 1, 0],
7 [0, 1, 1, 0, 2, 1, 0],
8 [0, 0, 2, 1, 1, 0, 0],
9 [0, 2, 1, 1, 2, 0, 0],
10 [0, 0, 0, 0, 0, 0, 0]
11]], dtype=np.float32)
12image = np.expand_dims(image, axis=-1)
13W = np.array([[
14 [ 0, 0, -1],
15 [ 0, 1, 0 ],
16 [-2, 0, 2 ]
17]], dtype=np.float32)
18b = np.array([1], dtype=np.float32)
然后建立一個僅有一個卷積層的模型,用
W和b初始化 [4] :
1model = tf.keras.models.Sequential([
2 tf.keras.layers.Conv2D(
3 filters=1, # 卷積層神經元(卷積核)數目
4 kernel_size=[3, 3], # 感受野大小
5 kernel_initializer=tf.constant_initializer(W),
6 bias_initializer=tf.constant_initializer(b)
7 )]
8)
最后將影像資料
image輸入模型,列印輸出:
1output = model(image)
2print(tf.squeeze(output))
程式運行結果為:
1tf.Tensor(
2[[ 6. 5. -2. 1. 2.]
3 [ 3. 0. 3. 2. -2.]
4 [ 4. 2. -1. 0. 0.]
5 [ 2. 1. 2. -1. -3.]
6 [ 1. 1. 1. 3. 1.]], shape=(5, 5), dtype=float32)
可見與上圖中矩陣 的值一致,
還有一個問題,以上假設圖片都只有一個通道(例如灰度圖片),但如果影像是彩色的(例如有 RGB 三個通道)該怎么辦呢?此時,我們可以為每個通道準備一個 3×3 的權值矩陣,即一共有 3×3×3=27 個權值,對于每個通道,均使用自己的權值矩陣進行處理,輸出時將多個通道所輸出的值進行加和即可,
可能有讀者會注意到,按照上述介紹的方法,每次卷積后的結果相比于原始影像而言,四周都會 “少一圈”,比如上面 7×7 的影像,卷積后變成了 5×5 ,這有時會為后面的作業帶來麻煩,因此,我們可以設定 padding 策略,在tf.keras.layers.Conv2D中,當我們將padding引數設為same時,會將周圍缺少的部分使用 0 補齊,使得輸出的矩陣大小和輸入一致,
最后,既然我們可以使用滑動視窗的方法進行卷積,那么每次滑動的步長是不是可以設定呢?答案是肯定的,通過
tf.keras.layers.Conv2D的strides引數即可設定步長(默認為 1),比如,在上面的例子中,如果我們將步長設定為 2,輸出的卷積結果即會是一個 3×3 的矩陣,
事實上,卷積的形式多種多樣,以上的介紹只是其中最簡單和基礎的一種,更多卷積方式的示例可見 Convolution arithmetic ,
池化層(Pooling Layer)的理解則簡單得多,其可以理解為對影像進行降采樣的程序,對于每一次滑動視窗中的所有值,輸出其中的最大值(MaxPooling)、均值或其他方法產生的值,例如,對于一個三通道的 16×16 影像(即一個 16163 的張量),經過感受野為 2×2,滑動步長為 2 的池化層,則得到一個 883 的張量,
[4]
這里使用了較為簡易的 Sequential 模式建立模型,具體介紹可參考手冊,
福利 | 問答環節
在上一篇文章《TensorFlow 2.0 模型:多層感知機》中,我們對于部分具有代表性的問題回答如下:
Q1:有 labelimg 標注過了的 datasets 下載庫推薦嗎?自己標幾萬張是不可能完成的任務……
A:對于已有的經典資料集,可以參考 TensorFlow Datasets,TensorFlow Datasets 是一個開箱即用的資料集集合,包含數十種常用的機器學習資料集,通過簡單的幾行代碼即可將資料以 tf.data.Datasets 的格式載入,
Q2:Release版本啥時候出來呀?
A:目前 TensorFlow 2.0 已發布了 RC1 (Release Candidate 1)版本,可使用 pip install tensorflow==2.0.0-rc1 安裝,相信距離正式發布已經不會太遠了,
Q3:TensorFlow 的 keras 和 keras 庫本身性能有區別么?
A:TensorFlow 的 Keras(tf.keras)可以理解為與 TensorFlow 緊密整合的 Keras,支持 TensorFlow 的更多獨有特性(如 Eager Execution、TPU、基于 tf.distribution 的多 GPU 和多機訓練等),而這些特性能夠幫助你更高效地訓練模型,同時建議參考知乎問題:tf.keras 和 keras有什么區別?,
Q4:每次都是 mnist ,能不能在資料 pipeline 上面多一些敘述?
A:其實,在本文的“快速載入并使用經典的卷積神經網路模型”部分,我們已經開始使用 TensorFlow Datasets(TFDS) 和 tf.data ,僅用短短數行就載入了 tf_flowers 花朵五分類資料集,并進行了影像大小轉換、打散及分批次等預處理,在后面的連載中,我們會專題介紹 TensorFlow Datasets(TFDS) 和 tf.data,這兩個工具能夠幫助你高效、靈活地載入和處理大規模訓練資料,可參考 :
Q5:最近在研究 object detection,想用 tensorflow-datasets 匯入 voc2007 資料集,但不知道怎么匯入,請問官方有比較好的演示代碼嗎?
A:您可以嘗試使用 TensorFlow Datasets 載入 voc2007 資料集,演示代碼如下:
1import tensorflow_datasets as tfds
2dataset = tfds.load("voc2007", split=tfds.Split.TRAIN)
是的,你沒看錯,就兩行哦!將資料集載入后,就可以使用 tf.data 方便高效地預處理和迭代讀取資料,以上是載入訓練集,載入測驗集和驗證集可將split=tfds.Split.TRAIN換為split=tfds.Split.TEST 和split=tfds.Split.VALIDATION ,
- TensorFlow Datasets 的使用簡介及
- TFDS 中載入 voc2007 資料集
Q6:資料集大,怎么處理?
A:在后面的連載中,我們會專題介紹 TensorFlow Datasets(TFDS) 和 tf.data,這兩個工具能夠幫助你高效、靈活地載入和處理訓練大規模資料,
Q7:可不可以出點系統性的教程,入門好難
A:本系列教程《簡單粗暴 TensorFlow 2.0》即希望為 TensorFlow 初學者提供易于上手的系統指導,另外,TensorFlow的官方教程也經過了大量的更新以改善易讀性,可參考本鏈接,
如果也想像大神一樣快速進步,別錯過 TensorFlow 官方團隊在中國大學慕課平臺推出的《TensorFlow 入門實操課程》,幫助你了解更多機器學習設計思路和實踐模式,立即點擊此處學習吧!
有任何學習疑問,歡迎移步“問答”版塊發帖提問,你的問題有機會得到 CSDN 百大熱門技術博主、資深社區作者或者 TensorFlow 資深開發者的解答哦!同時,我們也歡迎你積極地在這個版塊里,回答其他小伙伴提出的問題,成為 CSDN 社區貢獻者,邁出出道第一步!馬上開始討論吧!
還想獲取更多入門課程和產品資訊?記得掃碼關注 TensorFlow 官方微信公眾號( TensorFlow_official )!

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/248199.html
標籤:AI
上一篇:SCI-HUB 印度被訴、twitter賬號被封,是梁上君子還是羅賓漢?
下一篇:CSDN:2020年度CSDN博客之星評選競賽——180號【一個處女座的程式猿】,感謝您,投上的寶貴一票,感謝!感恩!




和偏置項
表示為 NumPy 陣列