Tensorflow 2.0+與Keras的聯系與應用(含model詳解)
事實上我個人入坑tensorflow比較晚,于是導致我其實并沒有經歷Tensorflow_v1特別火熱的那個年代,今年(2020年)早些時候,Tensorflow_v2已經成熟并且開始大量的出現在技術干貨當中,于是,我相當于跳過了那個需要寫sess的程序,直接學習了函式式model定義以及Keras,可以說是非常幸福了(因為確實簡化了很多作業)但遺憾的是,在機器學習和深度學習程序中,大量的前輩的文章,賴以實作的源代碼和demo使用的依然是v1的代碼,所以如果有余力還是很有必要去了解一些v1的代碼寫法,至少要能看得懂才可以,
其實在一開始學習的時候,我就在試圖挖掘和總結v1與v2的區別,但是無奈細節太多,倒不如從v2有什么開始介紹會更好理解,那么最突出的一點應該就是v2與Keras更好的結合吧,避免了很多我們重復造輪子的程序,本文主要為了比較全面的介紹Tensorflow_v2與Keras的關系,同時全文伴隨著舉出一個比較經典的mnist卷積案例來展示一下Keras的魅力,
Keras API加入Tensorflow
Keras事實上是一個高級別的Python神經網路框架,能夠在Tensorflow上運行的一款高級的API框架,它擁有著豐富的資料封裝和一些先進的模型實作,避免了“重復造輪子”,并且Keras.datasets庫提供了一些經典的機器學習資料集的下載API,比如Mnist和IMDB資料集可以直接通過API下載專有的格式,而且為了方便初學者的使用,Keras對資料集已經進行過很好的清洗,大家可以放心的用合適的方法和函式去提取資料(網上可以搜到細節教程,這不是我們的重點,這里不贅述)然后去直接測驗自己的模型,而不用花大量的時間去清洗資料,當然最主要的還是Keras定義好了很多我們的常用操作,避免了重復造輪子的尷尬,對于提升開發者效率來說意義重大,同時也是Tensorflow引入Keras API的最主要目的,
事實上我們還是以Tensorflow代碼為主,Keras只是我們的一個方便的輔助工具,它會簡化我們的程式撰寫程序,
Keras Model(非常關鍵)
神經網路的核心就是model,任何一個神經網路的主要設計思想和功能都集中在model中,Keras的加入使得model的定義更加簡單了,其中,最簡單的就是序列模型Sequential model,它由多個網路層堆疊而成,順序執行,一層一層邏輯關系非常清晰,易于構建和理解,但是現在我們在解決實際應用場景中的問題的時候會發現,很多問題并不能簡單地解決,可能大部分時間我們現在要想在現有基礎上進一步改進,都需要制作更龐大復雜的模型,這時候就應該使用Keras的函式式格式來定義functional model(這也是我們接下來的重點,因為它真的很重要),它可以支持我們構建任意結構的神經網路圖,
Sequential model序列模型
但是我們一開始還是從介紹簡單的Sequential model開始,因為有比較才能覺察出functional model的優勢在哪兒,比如:
from tensorflow import keras as Keras
# Keras的Sequential model序列模型舉例
model = Keras.models.Sequential() # 創建一個Keras的Sequential模型
model.add(Keras.layers.Dense(128, activation='relu')) # 增加一個128個隱藏神經元的全連接層
model.add(Keras.layers.Dense(64, activation='relu')) # 增加一個64個隱藏神經元的全連接層
model.add(Keras.layers.Dense(16, activation='relu')) # 增加一個16個隱藏神經元的全連接層
model.add(Keras.layers.Dense(1, activation='softmax')) # 增加一個softmax歸一化輸出層
可以看到,首先創建了一個Sequential模型,然后根據我們實際的需要,在model里面堆疊我們想要的神經網路層就可以了,在這里僅僅是拿了4個簡單的全連接層來做示范,對于卷積神經網路而言就將是很多conv層和pooling層,
Functional model函式式模型(重點)
順序模型對于問題解釋程度較差缺乏自由度,所以如果想要實作更為復雜的模型僅僅使用Sequential model就顯得不太夠,如果想要定義復雜模型(比如多輸出模型、有向無環圖或者具有共享層的模型)就應該使用Keras提供的函式式model定義法,
第一次接觸這種寫法會感覺很奇怪,但是習慣之后就發現其實還是很好理解的,只不過傳參的程序和呼叫的目標現在具有更好的自由度,它在形式上非常類似于傳統的編程,制需要建立模型匯入輸出和輸出“形式引數”即可,如果之前學過tensorflow_v1可以近似將其理解為一種新格式的“占位符”(其實是為輸入提前申請了一個張量空間),在這里也給出一個簡單的小例子代碼:(注釋是我之前做案例的時候加的,懶得刪掉了,對于理解也有幫助)
# 使用Input類進行初始化輸入,根據輸入資料的大小將輸入的資料維度做成[28,28,1]
input_data = tf.keras.Input([28, 28, 1]) # 與之前v1不同的是batch_size不需要設定了,tensorflow2.3自己能識別
# 首先是一個32個3*3核的卷積層,補零,激活函式也不用自己再寫了,直接封裝在里面了使用relu,并且用input_data初始化了整個卷積類
conv = tf.keras.layers.Conv2D(filters=32, kernel_size=3, padding="SAME", activation=tf.nn.relu)(input_data)
# 然后是使用BatchNormalization正則化類作為正則化工具也被用作各個層之間的聯結(減小模型過擬合可能,并增強模型泛化能力)
conv = tf.keras.layers.BatchNormalization()(conv)
# 然后接一個64個3*3核的卷積層,補零,激活函式為relu(特別備注一下tensorflow2.0對于kernel_size=3有自己封裝好的優化效果,盡量多用3)
conv = tf.keras.layers.Conv2D(filters=64, kernel_size=3, padding="SAME", activation=tf.nn.relu)(conv)
# 然后進行一次最大值池化(也是為了降低過擬合,增加模型泛化能力)
conv = tf.keras.layers.MaxPool2D(strides=[1, 1])(conv)
# 然后再接一個128*3*3的卷積層,補零,激活函式為relu
conv = tf.keras.layers.Conv2D(128, 3, padding="SAME", activation=tf.nn.relu)(conv)
# 然后接一個Flatten層將資料壓扁(平整化)成全連接神經網路能使用格式
flat = tf.keras.layers.Flatten()(conv)
# 然后接一個全連接層隱藏層設定128個神經元,激活函式使用relu(全連接層的目標是對卷積后的結果進行最終分類)
dense = tf.keras.layers.Dense(128, activation=tf.nn.relu)(flat)
# 將特征提取為10個輸出維度進行最終分類使用softmax激活函式進行特征歸一化
output_data = tf.keras.layers.Dense(10, activation=tf.nn.softmax)(dense)
# 定義好卷積神經網路的起止結點(即執行剛才定義好的模型從input_data開始到output_data結束,可以理解為規定模型定義部分的上下界)
model = tf.keras.Model(inputs=input_data, outputs=output_data)
關于這一部分,我們仔細的拿出來講,可以看到我上面給出的例子,這是筆者之前自己做的一個卷積的函式式模型,它包含很多與我們之前說的Sequential model不同的地方,出現了很多我們之前不了解的引數和方法,現在我們選擇其中必要的部分進行講解,
第零層:輸入層
首先第一部分是輸入端,也就是我在代碼中第一行是用的Input初始化方法,可以發現其實Input是Keras類當中的一個layers層,或者可以將其看做輸入層的概念,Input函式其實適用于實體化Keras張量,Keras張量是來自底層后端輸入的張量物件(就是我們處理好的資料集當中一個物件的尺寸),其中當然又增加了一些屬性,使其能夠通過了解模型的輸入輸出來構建Keras完整的model模型,屬性如下:
@keras_export('keras.Input', 'keras.layers.Input')
def Input( # pylint: disable=invalid-name
shape=None,
batch_size=None,
name=None,
dtype=None,
sparse=False,
tensor=None,
ragged=False,
**kwargs):
"""`Input()` is used to instantiate a Keras tensor.
根據類別庫的定義我們可以一個一個的來解讀其引數:
- shape(必要引數):可以理解成輸入張量的形狀(也就是我們的模型資料輸入每一個batch的尺寸了),是必須傳的引數(要求必須是整數值),官方wiki稱其為形狀元組(但是我覺得這樣稱呼不好理解),舉個例子吧,例如輸入shape = (32,)表示預期輸入將是32維向量的批次,
- batch_size:可選的批量大小(也必須是整數值)
- name:輸入層的可選名稱字串,在模型中應該是唯一的(不同的層不要重復使用相同的名稱,會導致后期如果想用名稱呼叫某一層的時候難以辨識),其實和給自定義張量起名一樣,這個值可以不賦,tensorflow在編譯時會自動生成,
- dtype:輸入層資料型別的預期格式(常見輸入型別包括float32, float64, int32)
- sparse:一個布林值,表示是否創建的輸入空間(占位符)是稀疏的,(一般默認就好,不用我們賦值)
- tensor:將可選的現有輸入張量加載到Input層中,如果設定了的話,輸入層將不會創建空白輸入空間占位符張量,
- **kwargs:其他的一些引數,開源部分,方便tensorflow開發者擴展該方法,
可以發現Input函式事實上是創建了一個輸入空間,這個輸入空間是一個可供存放物件的張量空間,維度的shape就是輸入的維度,需要注意的是,它與傳統的Tensorflow不同,這里的batchsize是通過batch_size單獨一個引數進行設定的,不包含在shape引數中,需要注意,
但是這樣其實還是不太直觀,要想更好地理解shape可以看看我上面的代碼,這個輸入的其實是mnist資料集,即手寫分類識別資料集,每張圖片的大小需要用4維來表示[1, 28, 28, 1],第一個數字是批次的大小(每次一張圖片),第二、三個數字是圖片尺寸為28*28,第四個數字是通道個數(圖片是灰度圖片所以只有1個通道,RGB的話應該是3個通道),
當然你會發現我寫的是[28,28,1]并沒有四維啊?這是因為tensorflow_v2.3非常厲害可以自動發現你現在在做的是一個影像識別的任務,所以你既不用在shape里寫上batch,也不用單獨定義batch_size的前提下keras也知道你希望如何去處理這個資料集,
# 使用Input類進行初始化輸入,根據輸入資料的大小將輸入的資料維度做成[28,28,1]
input_data = tf.keras.Input([28, 28, 1]) # 與之前v1不同的是batch_size不需要設定了,tensorflow2.3自己能識別
第1 ~ n-1層:中間層
剛才這上面講的都是關于輸入層的設計,它定義了整個model的輸入形式以及batch_size等資訊,那么主要進行操作的其實還是中間層的設計,中間層的定義也與之前Sequential model有很大的不同,我們直接看例子中的這一部分:
# 首先是一個32個3*3核的卷積層,補零,激活函式也不用自己再寫了,直接封裝在里面了使用relu,并且用input_data初始化了整個卷積類
conv = tf.keras.layers.Conv2D(filters=32, kernel_size=3, padding="SAME", activation=tf.nn.relu)(input_data)
# 然后是使用BatchNormalization正則化類作為正則化工具也被用作各個層之間的聯結(減小模型過擬合可能,并增強模型泛化能力)
conv = tf.keras.layers.BatchNormalization()(conv)
# 然后接一個64個3*3核的卷積層,補零,激活函式為relu(特別備注一下tensorflow2.0對于kernel_size=3有自己封裝好的優化效果,盡量多用3)
conv = tf.keras.layers.Conv2D(filters=64, kernel_size=3, padding="SAME", activation=tf.nn.relu)(conv)
# 然后進行一次最大值池化(也是為了降低過擬合,增加模型泛化能力)
conv = tf.keras.layers.MaxPool2D(strides=[1, 1])(conv)
# 然后再接一個128*3*3的卷積層,補零,激活函式為relu
conv = tf.keras.layers.Conv2D(128, 3, padding="SAME", activation=tf.nn.relu)(conv)
# 然后接一個Flatten層將資料壓扁(平整化)成全連接神經網路能使用格式
flat = tf.keras.layers.Flatten()(conv)
# 然后接一個全連接層隱藏層設定128個神經元,激活函式使用relu(全連接層的目標是對卷積后的結果進行最終分類)
dense = tf.keras.layers.Dense(128, activation=tf.nn.relu)(flat)
可以看到在這里每個類被直接定義,之后將值作為類實體化以后的輸入值進行輸入計算,寫法上也是有著很大的不同,最直接的表現為,我們不同去定義每一層的輸入引數了,而是在每個類后面再寫一個括號,里面放上輸入資訊,這直接就導致編程的靈活度提高了很多,因為輸入不是直接的層級關系,而可以進行跨越和反復呼叫,這完全取決于變數名稱形式的呼叫關系,而不再是Sequential的流程主導控制,一開始肯定會不太習慣,但越來越覺得這種寫法很合理而且很好理解,(其實如果你想讓它順序執行很簡單,就可以按照我例子中的寫法,每一層的輸入其實是上一層的輸出,但這樣也很方便,因為我們不用起一大堆變數名了,而一直使用conv就可以)
第n層:輸出層
其實輸出層很簡單,一般我們的模型最后都會有一個歸一化輸出層,這個層一般是個神經元特別少的全連接層,用于做分類預測輸出(激活函式一般是softmax),
# 將特征提取為10個輸出維度進行最終分類使用softmax激活函式進行特征歸一化
output_data = tf.keras.layers.Dense(10, activation=tf.nn.softmax)(dense)
第n+1層:整合層
要記得我們定義完每一層之后,還要對我們的模型定義一個起點和終點,其實就相當于對我們剛才的構建程序打一個包,告訴keras我們從哪里開始,從哪里結束,方法寫法如下:
# 定義好卷積神經網路的起止結點(即執行剛才定義好的模型從input_data開始到output_data結束,可以理解為規定模型定義部分的上下界)
model = tf.keras.Model(inputs=input_data, outputs=output_data)
就是將模型的起始層和輸出層告訴keras.model,
模型的應用model.compile()
# compile函式是tensorflow_v2適配損失函式和選擇優化器的專用函式
# (使用Adam優化函式來優化梯度和學習率,損失函式為交叉熵損失函式,metrics使模型的評價標準,一般默認就是精準匹配模式)
model.compile(optimizer=tf.optimizers.Adam(1e-3), loss=tf.losses.categorical_crossentropy, metrics=['accuracy'])
無論我們是使用sequential model還是functional model定義方法,最后都要進行Model.compile來將模型的損失函式和優化方法進行定義,比如我上面的代碼中使用的就是Adam優化方法,和交叉熵損失函式,后面是用的是精準metrics評價函式,關于metrics評價函式這個大家不熟悉的引數以及它與損失函式的對應關系,大家可以參考我的另一篇文章來進行學習https://blog.csdn.net/qq_39381654/article/details/108747701,和本文一樣都是個人總結以便自查,大家也可以去看看會有所幫助,跑題了……
總之,模型定義好了就該去定義這各compile方法了,通過改變引數去選擇你的模型的優化方法,損失函式和評價函式,
讓tensorflow訓練剛剛定義好的模型
當我們定義好了模型之后,肯定是要開始加載訓練集去訓練模型咯,方法和以前一樣,使用的是model.fit方法,可以在這里設定epoch整體迭代次數,
model.fit(train_dataset, epochs=3)
事實上這個程序也可以設定列印的時候的顯示模式可以在后面加上verbose這個引數,verbose = 0不列印程序進度條,只列印每一個epoch的結果,verbose = 1會列印epoch訓練進度條(我比較喜歡進度條),而如果你設定了verbose = 2就什么都不列印,訓練完就完了(非常不推薦,這樣的話看不到每次epoch的acc和loss變化沒法得知epoch或者引數設定是否導致模型欠擬合或者過擬合)比如下面我給出的這是我做的另外一個RNN實驗的model.fit寫法,是不是比剛才復雜多了,
model.fit(trainSet, labelTrain, batch_size=400, epochs=7, verbose=1, validation_split=0.2)
首先,這是一個自帶標注的資料集,標注集被單獨分離出來了所以傳參的時候傳兩個,另外,這個資料集的數量比較龐大,需要自行設定epoch的batch_size,而且你會發現我最后還以這個資料集的20%抽取出來作為每一次epoch的驗證集,有助于我得到每輪迭代的預測loss和訓練集loss作比較,來方便調參,(這里涉及調參和epoch的列印資訊含義,我想以后再單獨寫篇文章解釋吧,一篇文章東西太多不太好),
訓練好的模型mdoel的保存與復用
# 使用Keras的model將定義好的模型進行保存用以隨后的復用
model.save("model_saved.h5")
可以看到,我呼叫了model.save方法來保存我剛剛訓練好的模型,這很有用,舉個例子,很多時候我們的集群在云端幫我們泡好了一個模型的資料,但是不巧我們在服務器上接收不到我們代碼里的matplotlib繪制的資料,我們就可以讓服務器執行model.save把訓練好的模型保存在一個.h5檔案里,然后拷貝到本地,直接加載模型進行預測,并且畫出預測圖和你想要的資料,甚至將該模型作為預訓練模型來做其他的事,
所以在這里我再介紹一下如何使用之前保存好的模型,其實很簡單,一行代碼的事:
new_model = tf.keras.models.load_model("model_saved.h5")
然后再拿這個new_model去執行模型預測就可以直接呈現預測結果了:
new_model = tf.keras.models.load_model("model_saved.h5")
new_prediction = new_model.predict(test_dataset)
稍作總結
剛才我們進行了一個比較完整的Model定義和使用程序,我會把這個程序中使用的原始碼打包放在這里供大家使用和對照,其實你會發現tensorflow_v2真的比v1省了很多事,我們不用定義好模型再去sess了,取而代之的是一套非常流暢的模型定義和使用程序,當然這樣高度的封裝也帶來另外一個問題就是,過于簡單的使用或許不適合我們去理解模型本身的具體實作,或者對模型底層實作改變或創新,但假如你做的是更高層或者深層DNN的模型的搭建,那么我個人覺得不要重復造輪子,這些模型的效率已經很高了,我們可以在其他角度上改進和創新,tensorflow_v2和keras給我們提供了一個很好的平臺來幫助我們構建效率更高的模型和實作更多的現實任務,我們應該盡快熟悉并掌握它,來更高效地構建自己的模型和代碼,當然我們都是站在巨人的肩膀上學習,向前輩致敬,并保持學習才是我們的態度,
附上本文的案例代碼打包檔案
相信大家已經看了本文的代碼很久了,想要自己跑跑試試了,這里打包上傳了我的mnist模型,但是再次提醒如果大家沒有配置GPU的話,跑這個實驗還是挺難的,建議要么用服務器,要么自己去先參考我之前發的文章配個GPU+CUDA+CUDNN來訓練模型,(文章鏈接:https://blog.csdn.net/qq_39381654/article/details/108063967)
代碼已經上傳,并且通過了驗證:https://download.csdn.net/download/qq_39381654/12914599(是這樣,我發現下載的人多了之后它會變貴,其實我一開始僅僅標記了1積分,所以如果它變得特別貴的時候私信我,我再把它調回去,可能平臺也是為了照顧作者,先謝謝平臺了)
轉載請註明出處,本文鏈接:https://www.uj5u.com/yidong/164945.html
標籤:其他
