該系列文章是講解Python OpenCV影像處理知識,前期主要講解影像入門、OpenCV基礎用法,中期講解影像處理的各種演算法,包括影像銳化算子、影像增強技術、影像分割等,后期結合深度學習研究影像識別、影像分類應用,希望文章對您有所幫助,如果有不足之處,還請海涵~
前面一篇文章介紹了影像增強知識,從而改善影像質量,增強影像識別效果,核心內容分為直方圖均衡化、區域直方圖均衡化和自動色彩均衡三部分,這篇文章將詳細講解影像分類知識,包括常見的影像分類演算法,并介紹Python環境下的貝葉斯影像分類演算法、基于KNN演算法的影像分類和基于神經網路演算法的影像分類等案例,萬字長文整理,希望對您有所幫助, 同時,該部分知識均為作者查閱資料撰寫總結,并且開設成了收費專欄,為小寶賺點奶粉錢,感謝您的抬愛,當然如果您是在讀學生或經濟拮據,可以私聊我給你每篇文章開白名單,或者轉發原文給你,更希望您能進步,一起加油喔~
代碼下載地址(如果喜歡記得star,一定喔):
- https://github.com/eastmountyxz/ImageProcessing-Python
文章目錄
- 一.影像分類概述
- 二.常見的分類演算法
- 1.樸素貝葉斯分類演算法
- 2.KNN分類演算法
- 3.SVM分類演算法
- 4.隨機森林分類演算法
- 5.神經網路分類演算法
- 三.基于樸素貝葉斯演算法的影像分類
- 四.基于KNN演算法的影像分類
- 五.基于神經網路演算法的影像分類
- 六.總結
前文參考:
- [Python影像處理] 一.影像處理基礎知識及OpenCV入門函式
- [Python影像處理] 二.OpenCV+Numpy庫讀取與修改像素
- [Python影像處理] 三.獲取影像屬性、興趣ROI區域及通道處理
- [Python影像處理] 四.影像平滑之均值濾波、方框濾波、高斯濾波及中值濾波
- [Python影像處理] 五.影像融合、加法運算及影像型別轉換
- [Python影像處理] 六.影像縮放、影像旋轉、影像翻轉與影像平移
- [Python影像處理] 七.影像閾值化處理及演算法對比
- [Python影像處理] 八.影像腐蝕與影像膨脹
- [Python影像處理] 九.形態學之影像開運算、閉運算、梯度運算
- [Python影像處理] 十.形態學之影像頂帽運算和黑帽運算
- [Python影像處理] 十一.灰度直方圖概念及OpenCV繪制直方圖
- [Python影像處理] 十二.影像幾何變換之影像仿射變換、影像透視變換和影像校正
- [Python影像處理] 十三.基于灰度三維圖的影像頂帽運算和黑帽運算
- [Python影像處理] 十四.基于OpenCV和像素處理的影像灰度化處理
- [Python影像處理] 十五.影像的灰度線性變換
- [Python影像處理] 十六.影像的灰度非線性變換之對數變換、伽馬變換
- [Python影像處理] 十七.影像銳化與邊緣檢測之Roberts算子、Prewitt算子、Sobel算子和Laplacian算子
- [Python影像處理] 十八.影像銳化與邊緣檢測之Scharr算子、Canny算子和LOG算子
- [Python影像處理] 十九.影像分割之基于K-Means聚類的區域分割
- [Python影像處理] 二十.影像量化處理和采樣處理及區域馬賽克特效
- [Python影像處理] 二十一.影像金字塔之影像向下取樣和向上取樣
- [Python影像處理] 二十二.Python影像傅里葉變換原理及實作
- [Python影像處理] 二十三.傅里葉變換之高通濾波和低通濾波
- [Python影像處理] 二十四.影像特效處理之毛玻璃、浮雕和油漆特效
- [Python影像處理] 二十五.影像特效處理之素描、懷舊、光照、流年以及濾鏡特效
- [Python影像處理] 二十六.影像分類原理及基于KNN、樸素貝葉斯演算法的影像分類案例
- [Python影像處理] 二十七.OpenGL入門及繪制基本圖形(一)
- [Python影像處理] 二十八.OpenCV快速實作人臉檢測及視頻中的人臉
- [Python影像處理] 二十九.MoviePy視頻編輯庫實作抖音短視頻剪切合并操作
- [Python影像處理] 三十.影像量化及采樣處理萬字詳細總結(推薦)
- [Python影像處理] 三十一.影像點運算處理兩萬字詳細總結(灰度化處理、閾值化處理)
- [Python影像處理] 三十二.傅里葉變換(影像去噪)與霍夫變換(特征識別)萬字詳細總結
- [Python影像處理] 三十三.影像各種特效處理及原理萬字詳解(毛玻璃、浮雕、素描、懷舊、流年、濾鏡等)
- [Python影像處理] 三十四.數字影像處理基礎與幾何圖形繪制萬字詳解(推薦)
- [Python影像處理] 三十五.OpenCV影像處理入門、算數邏輯運算與影像融合(推薦)
- [Python影像處理] 三十六.OpenCV影像幾何變換萬字詳解(平移縮放旋轉、鏡像仿射透視)
- [Python影像處理] 三十七.OpenCV和Matplotlib繪制直方圖萬字詳解(掩膜直方圖、H-S直方圖、黑夜白天判斷)
- [Python影像處理] 三十八.OpenCV影像增強萬字詳解(直方圖均衡化、區域直方圖均衡化、自動色彩均衡化)
- [Python影像處理] 三十九.Python影像分類萬字詳解(貝葉斯影像分類、KNN影像分類、DNN影像分類)
一.影像分類概述
影像分類(Image Classification)是對影像內容進行分類的問題,它利用計算機對影像進行定量分析,把影像或影像中的區域劃分為若干個類別,以代替人的視覺判斷,
影像分類的傳統方法是特征描述及檢測,這類傳統方法可能對于一些簡單的影像分類是有效的,但由于實際情況非常復雜,傳統的分類方法不堪重負,現在,廣泛使用機器學習和深度學習的方法來處理影像分類問題,其主要任務是給定一堆輸入圖片,將其指派到一個已知的混合類別中的某個標簽,
在圖1中,影像分類模型將獲取單個影像,并將為4個標簽{cat,dog,hat,mug}分配對應的概率{0.6, 0.3, 0.05, 0.05},其中0.6表示影像標簽為貓的概率,其余類比,

如圖1所示,該影像被表示為一個三維陣列,在這個例子中,貓的影像寬度為248像素,高度為400像素,并具有紅綠藍三個顏色通道(通常稱為RGB),因此,影像由248×400×3個數字組成或總共297600個數字,每個數字是一個從0(黑色)到255(白色)的整數,影像分類的任務是將這接近30萬個數字變成一個單一的標簽,如“貓(cat)”,
那么,如何撰寫一個影像分類的演算法呢?又怎么從眾多影像中識別出貓呢?
這里所采取的方法和教育小孩看圖識物類似,給出很多影像資料,讓模型不斷去學習每個類的特征,在訓練之前,首先需要對訓練集的影像進行分類標注,如圖2所示,包括cat、dog、mug和hat四類,在實際工程中,可能有成千上萬類別的物體,每個類別都會有上百萬張影像,

影像分類是輸入一堆影像的像素值陣列,然后給它分配一個分類標簽,通過訓練學習來建立演算法模型,接著使用該模型進行影像分類預測,具體流程如下:
- 輸入:輸入包含N個影像的集合,每個影像的標簽是K種分類標簽中的一種,這個集合稱為訓練集;
- 學習:第二步任務是使用訓練集來學習每個類的特征,構建訓練分類器或者分類模型;
- 評價:通過分類器來預測新輸入影像的分類標簽,并以此來評價分類器的質量,通過分類器預測的標簽和影像真正的分類標簽對比,從而評價分類演算法的好壞,如果分類器預測的分類標簽和影像真正的分類標簽一致,表示預測正確,否則預測錯誤,
二.常見的分類演算法
常見的分類演算法包括樸素貝葉斯分類器、決策樹、K最近鄰分類演算法、支持向量機、神經網路和基于規則的分類演算法等,同時還有用于組合單一類方法的集成學習演算法,如Bagging和Boosting等,
1.樸素貝葉斯分類演算法
樸素貝葉斯分類(Naive Bayes Classifier)發源于古典數學理論,利用Bayes定理來預測一個未知類別的樣本屬于各個類別的可能性,選擇其中可能性最大的一個類別作為該樣本的最終類別,在樸素貝葉斯分類模型中,它將為每一個類別的特征向量建立服從正態分布的函式,給定訓練資料,演算法將會估計每一個類別的向量均值和方差矩陣,然后根據這些進行預測,

樸素貝葉斯分類模型的正式定義如下:

該演算法的特點為:如果沒有很多資料,該模型會比很多復雜的模型獲得更好的性能,因為復雜的模型用了太多假設,以致產生欠擬合,
2.KNN分類演算法
K最近鄰分類(K-Nearest Neighbor Classifier)演算法是一種基于實體的分類方法,是資料挖掘分類技術中最簡單常用的方法之一,該演算法的核心思想如下:一個樣本x與樣本集中的k個最相鄰的樣本中的大多數屬于某一個類別yLabel,那么該樣本x也屬于類別yLabel,并具有這個類別樣本的特性,簡而言之,一個樣本與資料集中的k個最相鄰樣本中的大多數的類別相同,

由其思想可以看出,KNN是通過測量不同特征值之間的距離進行分類,而且在決策樣本類別時,只參考樣本周圍k個“鄰居”樣本的所屬類別,因此比較適合處理樣本集存在較多重疊的場景,主要用于預測分析、文本分類、降維等處理,
該演算法在建立訓練集時,就要確定訓練資料及其對應的類別標簽;然后把待分類的測驗資料與訓練集資料依次進行特征比較,從訓練集中挑選出最相近的k個資料,這k個資料中投票最多的分類,即為新樣本的類別,KNN分類演算法的流程描述為如圖3所示,

該演算法的特點為:簡單有效,但因為需要存盤所有的訓練集,占用很大記憶體,速度相對較慢,使用該方法前通常訓練集需要進行降維處理,
3.SVM分類演算法
支持向量機(Support Vector Machine)是數學家Vapnik等人根據統計學習理論提出的一種新的學習方法,其基本模型定義為特征空間上間隔最大的線性分類器,其學習策略是間隔最大化,最終轉換為一個凸二次規劃問題的求解,
SVM分類演算法基于核函式把特征向量映射到高維空間,建立一個線性判別函式,解最優在某種意義上是兩類中距離分割面最近的特征向量和分割面的距離最大化,離分割面最近的特征向量被稱為“支持向量”,即其它向量不影響分割面,影像分類中的SVM如圖4所示,將影像劃分為不同類別,

下面的例子可以讓讀者對SVM快速建立一個認知,給定訓練樣本,支持向量機建立一個超平面作為決策曲面,使得正例和反例的隔離邊界最大化,決策曲面的構建程序如下所示:
第一步,在圖5中,想象紅球和藍球為球臺上的桌球,首先需要找到一條曲線將藍球和紅球分開,于是得到一條黑色的曲線;

第二步,為了使黑色曲線離任意的藍球和紅球距離最大化,我們需要找到一條最優的曲線,如圖6所示;

第三步,假設這些球不是在球桌上,而是拋在空中,但仍然需要將紅球和藍球分開,這時就需要一個曲面,而且該曲面仍然滿足所有任意紅球和藍球的間距最大化,如圖7所示,離這個曲面最近的紅色球和藍色球就被稱為“支持向量(Support Vector)”,

該演算法的特點為:當資料集比較小的時候,支持向量機的效果非常好,同時,SVM分類演算法較好地解決了非線性、高維數、區域極小點等問題,維數大于樣本數時仍然有效,
4.隨機森林分類演算法
隨機森林(Random Forest)是用隨機的方式建立一個森林,在森林里有很多決策樹的組成,并且每一棵決策樹之間是沒有關聯的,當有一個新樣本出現的時候,通過森林中的每一棵決策樹分別進行判斷,看看這個樣本屬于哪一類,然后用投票的方式,決定哪一類被選擇的多,并作為最終的分類結果,

隨機森林中的每一個決策樹“種植”和“生長”主要包括以下四個步驟:
- 假設訓練集中的樣本個數為N,通過有重置的重復多次抽樣獲取這N個樣本,抽樣結果將作為生成決策樹的訓練集;
- 如果有M個輸入變數,每個節點都將隨機選擇m(m<M)個特定的變數,然后運用這m個變數來確定最佳的分裂點,在決策樹的生成程序中,m值是保持不變的;
- 每棵決策樹都最大可能地進行生長而不進行剪枝;
- 通過對所有的決策樹進行加來預測新的資料(在分類時采用多數投票,在回歸時采用平均),
該演算法的特點為:在分類和回歸分析中都表現良好;對高維資料的處理能力強,可以處理成千上萬的輸入變數,也是一個非常不錯的降維方法;能夠輸出特征的重要程度,能有效地處理預設值,
5.神經網路分類演算法
神經網路(Neural Network)是對非線性可分資料的分類方法,通常包括輸入層、隱藏層和輸出層,其中,與輸入直接相連的稱為隱藏層(Hidden Layer),與輸出直接相連的稱為輸出層(Output Layer),神經網路演算法的特點是有比較多的區域最優值,可通過多次隨機設定初始值并運行梯度下降演算法獲得最優值,影像分類中使用最廣泛的是BP神經網路和CNN神經網路,
1.BP神經網路
BP神經網路是一種多層的前饋神經網路,其主要的特點為:信號是前向傳播的,而誤差是反向傳播的,BP神經網路的程序主要分為兩個階段,第一階段是信號的前向傳播,從輸入層經過隱含層,最后到達輸出層;第二階段是誤差的反向傳播,從輸出層到隱含層,最后到輸入層,依次調節隱含層到輸出層的權重和偏置,輸入層到隱含層的權重和偏置,具體結構如圖8所示,

神經網路的基本組成單元是神經元,神經元的通用模型如圖9所示,其中常用的激活函式有閾值函式、Sigmoid函式和雙曲正切函式等,

神經元的輸出為:

2.CNN卷積神經網路
卷積神經網路(Convolutional Neural Networks)是一類包含卷積計算且具有深度結構的前饋神經網路,是深度學習的代表演算法之一,卷積神經網路的研究始于二十世紀80至90年代,時間延遲網路和LeNet-5是最早出現的卷積神經網路,在二十一世紀后,隨著深度學習理論的提出和數值計算設備的改進,卷積神經網路得到了快速發展,并被大量應用于計算機視覺、自然語言處理等領域,

圖10是一個識別的CNN模型,最左邊的圖片是輸入層二維矩陣,然后是卷積層,卷積層的激活函式使用ReLU,即,在卷積層之后是池化層,它和卷積層是CNN特有的,池化層中沒有激活函式,卷積層和池化層的組合可以在隱藏層出現很多次,上圖中回圈出現了兩次,而實際上這個次數是根據模型的需要而定,常見的CNN都是若干卷積層加池化層的組合,在若干卷積層和池化層后面是全連接層,最后輸出層使用了Softmax激活函式來做影像識別的分類,
三.基于樸素貝葉斯演算法的影像分類
本章主要使用Scikit-Learn包進行Python影像分類處理,Scikit-Learn擴展包是用于Python資料挖掘和資料分析的經典、實用擴展包,通常縮寫為Sklearn,Scikit-Learn中的機器學習模型是非常豐富的,包括:
- 線性回歸
- 決策樹
- SVM
- KMeans
- KNN
- PCA
- …
用戶可以根據具體分析問題的型別選擇該擴展包的合適模型,從而進行資料分析,其安裝程序主要通過“pip install scikit-learn”實作,
實驗所采用的資料集為Sort_1000pics資料集,該資料集包含了1000張圖片,總共分為10大類,分別是人(第0類)、沙灘(第1類)、建筑(第2類)、大卡車(第3類)、恐龍(第4類)、大象(第5類)、花朵(第6類)、馬(第7類)、山峰(第8類)和食品(第9類),每類100張,如圖11所示,

接著將所有各類影像按照對應的類標劃分至“0”至“9”命名的檔案夾中,如圖12所示,每個檔案夾中均包含了100張影像,對應同一類別,

比如,檔案夾名稱為“6”中包含了100張花的影像,如圖13所示,

下面是呼叫樸素貝葉斯演算法進行影像分類的完整代碼,呼叫sklearn.naive_bayes中的BernoulliNB()函式進行實驗,它將1000張影像按照訓練集為70%,測驗集為30%的比例隨機劃分,再獲取每張影像的像素直方圖,根據像素的特征分布情況進行影像分類分析,
# -*- coding: utf-8 -*-
# By: Eastmount CSDN 2021-04-01
import os
import cv2
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, classification_report
#----------------------------------------------------------------------------------
# 第一步 切分訓練集和測驗集
#----------------------------------------------------------------------------------
X = [] #定義影像名稱
Y = [] #定義影像分類類標
Z = [] #定義影像像素
for i in range(0, 10):
#遍歷檔案夾,讀取圖片
for f in os.listdir("photo/%s" % i):
#獲取影像名稱
X.append("photo//" +str(i) + "//" + str(f))
#獲取影像類標即為檔案夾名稱
Y.append(i)
X = np.array(X)
Y = np.array(Y)
#隨機率為100% 選取其中的30%作為測驗集
X_train, X_test, y_train, y_test = train_test_split(X, Y,
test_size=0.3, random_state=1)
print(len(X_train), len(X_test), len(y_train), len(y_test))
#----------------------------------------------------------------------------------
# 第二步 影像讀取及轉換為像素直方圖
#----------------------------------------------------------------------------------
#訓練集
XX_train = []
for i in X_train:
#讀取影像
#print i
image = cv2.imread(i)
#影像像素大小一致
img = cv2.resize(image, (256,256),
interpolation=cv2.INTER_CUBIC)
#計算影像直方圖并存盤至X陣列
hist = cv2.calcHist([img], [0,1], None,
[256,256], [0.0,255.0,0.0,255.0])
XX_train.append(((hist/255).flatten()))
#測驗集
XX_test = []
for i in X_test:
#讀取影像
#print i
image = cv2.imread(i)
#影像像素大小一致
img = cv2.resize(image, (256,256),
interpolation=cv2.INTER_CUBIC)
#計算影像直方圖并存盤至X陣列
hist = cv2.calcHist([img], [0,1], None,
[256,256], [0.0,255.0,0.0,255.0])
XX_test.append(((hist/255).flatten()))
#----------------------------------------------------------------------------------
# 第三步 基于樸素貝葉斯的影像分類處理
#----------------------------------------------------------------------------------
from sklearn.naive_bayes import BernoulliNB
clf = BernoulliNB().fit(XX_train, y_train)
predictions_labels = clf.predict(XX_test)
print('預測結果:')
print(predictions_labels)
print('演算法評價:')
print(classification_report(y_test, predictions_labels))
#輸出前10張圖片及預測結果
k = 0
while k<10:
#讀取影像
print(X_test[k])
image = cv2.imread(X_test[k])
print(predictions_labels[k])
#顯示影像
cv2.imshow("img", image)
cv2.waitKey(0)
cv2.destroyAllWindows()
k = k + 1
代碼中對預測集的前十張影像進行了顯示,其中“368.jpg”影像如圖14所示,其分類預測的類標結果為“3”,表示第3類大卡車,預測結果正確,

圖15展示了“452.jpg”影像,其分類預測的類標結果為“4”,表示第4類恐龍,預測結果正確,

圖16展示了“507.jpg”影像,其分類預測的類標結果為“7”,錯誤地預測為第7類恐龍,其真實結果應該是第5類大象,

使用樸素貝葉斯演算法進行影像分類實驗,最后預測的結果及演算法評價準確率(Precision)、召回率(Recall)和F值(F1-score)如圖16所示,

四.基于KNN演算法的影像分類
下面是基于KNN演算法的影像分類代碼,呼叫sklearn.neighbors中的KNeighborsClassifier()函式進行實驗,核心代碼如下:
- from sklearn.neighbors import KNeighborsClassifier
- clf = KNeighborsClassifier(n_neighbors=11).fit(XX_train, y_train)
- predictions_labels = clf.predict(XX_test)
完整代碼參照下面的檔案,
# -*- coding: utf-8 -*-
# By: Eastmount CSDN 2021-04-01
import os
import cv2
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, classification_report
#----------------------------------------------------------------------------------
# 第一步 切分訓練集和測驗集
#----------------------------------------------------------------------------------
X = [] #定義影像名稱
Y = [] #定義影像分類類標
Z = [] #定義影像像素
for i in range(0, 10):
#遍歷檔案夾,讀取圖片
for f in os.listdir("photo/%s" % i):
#獲取影像名稱
X.append("photo//" +str(i) + "//" + str(f))
#獲取影像類標即為檔案夾名稱
Y.append(i)
X = np.array(X)
Y = np.array(Y)
#隨機率為100% 選取其中的30%作為測驗集
X_train, X_test, y_train, y_test = train_test_split(X, Y,
test_size=0.3, random_state=1)
print(len(X_train), len(X_test), len(y_train), len(y_test))
#----------------------------------------------------------------------------------
# 第二步 影像讀取及轉換為像素直方圖
#----------------------------------------------------------------------------------
#訓練集
XX_train = []
for i in X_train:
#讀取影像
#print i
image = cv2.imread(i)
#影像像素大小一致
img = cv2.resize(image, (256,256),
interpolation=cv2.INTER_CUBIC)
#計算影像直方圖并存盤至X陣列
hist = cv2.calcHist([img], [0,1], None,
[256,256], [0.0,255.0,0.0,255.0])
XX_train.append(((hist/255).flatten()))
#測驗集
XX_test = []
for i in X_test:
#讀取影像
#print i
image = cv2.imread(i)
#影像像素大小一致
img = cv2.resize(image, (256,256),
interpolation=cv2.INTER_CUBIC)
#計算影像直方圖并存盤至X陣列
hist = cv2.calcHist([img], [0,1], None,
[256,256], [0.0,255.0,0.0,255.0])
XX_test.append(((hist/255).flatten()))
#----------------------------------------------------------------------------------
# 第三步 基于KNN的影像分類處理
#----------------------------------------------------------------------------------
from sklearn.neighbors import KNeighborsClassifier
clf = KNeighborsClassifier(n_neighbors=11).fit(XX_train, y_train)
predictions_labels = clf.predict(XX_test)
print('預測結果:')
print(predictions_labels)
print('演算法評價:')
print((classification_report(y_test, predictions_labels)))
#輸出前10張圖片及預測結果
k = 0
while k<10:
#讀取影像
print(X_test[k])
image = cv2.imread(X_test[k])
print(predictions_labels[k])
#顯示影像
cv2.imshow("img", image)
cv2.waitKey(0)
cv2.destroyAllWindows()
k = k + 1
代碼中對預測集的前十張影像進行了顯示,其中“818.jpg”影像如圖17所示,其分類預測的類標結果為“8”,表示第8類山峰,預測結果正確,

圖18展示了“929.jpg”影像,其分類預測的類標結果為“9”,正確地預測為第9類食品,

使用KNN演算法進行影像分類實驗,最后演算法評價的準確率(Precision)、召回率(Recall)和F值(F1-score)如圖19所示,其中平均準確率為0.63,平均召回率為0.55,平均F值為0.49,其結果略差于樸素貝葉斯的影像分類演算法,

五.基于神經網路演算法的影像分類
下面是基于神經網路演算法的影像分類代碼,主要是結合“誓天斷發”老師的博客實作的,通過自定義的神經網路實作影像分類,它的基本思想為:先計算每一層的狀態和激活值,直到最后一層(即信號是前向傳播的);接著計算每一層的誤差,誤差的計算程序是從最后一層向前推進的(反向傳播);最后更新引數(目標是誤差變小),迭代前面兩個步驟,直到滿足停止準則,比如相鄰兩次迭代的誤差的差別很小,
具體代碼如下:
# -*- coding: utf-8 -*-
# By: Eastmount CSDN 2021-04-01
import os
import cv2
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, classification_report
#----------------------------------------------------------------------------------
# 第一步 影像讀取及轉換為像素直方圖
#----------------------------------------------------------------------------------
X = []
Y = []
for i in range(0, 10):
#遍歷檔案夾,讀取圖片
for f in os.listdir("photo/%s" % i):
#獲取影像像素
Images = cv2.imread("photo/%s/%s" % (i, f))
image=cv2.resize(Images,(256,256),interpolation=cv2.INTER_CUBIC)
hist = cv2.calcHist([image], [0,1], None, [256,256], [0.0,255.0,0.0,255.0])
X.append((hist/255).flatten())
Y.append(i)
X = np.array(X)
Y = np.array(Y)
#切分訓練集和測驗集
X_train, X_test, y_train, y_test = train_test_split(X, Y,
test_size=0.3, random_state=1)
#----------------------------------------------------------------------------------
# 第二步 定義神經網路函式
#----------------------------------------------------------------------------------
from sklearn.preprocessing import LabelBinarizer
import random
def logistic(x):
return 1 / (1 + np.exp(-x))
def logistic_derivative(x):
return logistic(x) * (1 - logistic(x))
class NeuralNetwork:
def predict(self, x):
for b, w in zip(self.biases, self.weights):
# 計算權重相加再加上偏向的結果
z = np.dot(x, w) + b
# 計算輸出值
x = self.activation(z)
return self.classes_[np.argmax(x, axis=1)]
class BP(NeuralNetwork):
def __init__(self,layers,batch):
self.layers = layers
self.batch = batch
self.activation = logistic
self.activation_deriv = logistic_derivative
self.num_layers = len(layers)
self.biases = [np.random.randn(x) for x in layers[1:]]
self.weights = [np.random.randn(x, y) for x, y in zip(layers[:-1], layers[1:])]
def fit(self, X, y, learning_rate=0.1, epochs=1):
labelbin = LabelBinarizer()
y = labelbin.fit_transform(y)
self.classes_ = labelbin.classes_
training_data = [(x,y) for x, y in zip(X, y)]
n = len(training_data)
for k in range(epochs):
#每次迭代都回圈一次訓練
#訓練集亂序
random.shuffle(training_data)
batches = [training_data[k:k+self.batch] for k in range(0, n, self.batch)]
#批量梯度下降
for mini_batch in batches:
x = []
y = []
for a,b in mini_batch:
x.append(a)
y.append(b)
activations = [np.array(x)]
#向前一層一層的走
for b, w in zip(self.biases, self.weights):
#計算激活函式的引數,計算公式:權重.dot(輸入)+偏向
z = np.dot(activations[-1],w)+b
#計算輸出值
output = self.activation(z)
#將本次輸出放進輸入串列 后面更新權重的時候備用
activations.append(output)
#計算誤差值
error = activations[-1]-np.array(y)
#計算輸出層誤差率
deltas = [error * self.activation_deriv(activations[-1])]
#回圈計算隱藏層的誤差率 從倒數第2層開始
for l in range(self.num_layers-2, 0, -1):
deltas.append(self.activation_deriv(activations[l]) * np.dot(deltas[-1],self.weights[l].T))
#將各層誤差率順序顛倒 準備逐層更新權重和偏向
deltas.reverse()
#更新權重和偏向
for j in range(self.num_layers-1):
# 權重的增長量 計算公式為: 增長量 = 學習率 × (錯誤率.dot(輸出值))
delta = learning_rate/self.batch*((np.atleast_2d(activations[j].sum(axis=0)).T).dot(np.atleast_2d(deltas[j].sum(axis=0))))
#更新權重
self.weights[j] -= delta
#偏向增加量 計算公式為: 學習率 × 錯誤率
delta = learning_rate/self.batch * deltas[j].sum(axis=0)
#更新偏向
self.biases[j] -= delta
return self
#----------------------------------------------------------------------------------
# 第三步 基于神經網路的影像分類處理
#----------------------------------------------------------------------------------
clf = BP([X_train.shape[1],10],10).fit(X_train,y_train,epochs=100)
predictions_labels = clf.predict(X_test)
print('預測結果:')
print(predictions_labels)
print('演算法評價:')
print(classification_report(y_test, predictions_labels))
使用神經網路演算法進行影像分類實驗,最后演算法評價的準確率(Precision)、召回率(Recall)和F值(F1-score)如圖16-20所示,其中平均準確率為0.63,平均召回率為0.63,平均F值為0.62,整體分類結果良好,

這里可能會疑惑效果為什么會這么差呢?
- 一方面是采用拉直函式,正常影像分類更建議將整個影像矩陣映射進行分類;
- 另一方面我們采用的演算法比較傳統,后續作者會介紹CNN、RNN、LSTM之類的對比;
- 該篇文章更重要的是普及影像分類演算法,并實作一個簡單的demo,
六.總結
寫到這里,本文就介紹完畢,這篇主要講解Python環境下的影像分類演算法,首先普及了常見的分類演算法,包括樸素貝葉斯、KNN、SVM、隨機森林、神經網路等,接著通過樸素貝葉斯、KNN和神經網路分別實作了1000張影像的影像分類實驗,對讀者有一定幫助,
- 一.影像分類概述
- 二.常見的分類演算法
1.樸素貝葉斯分類演算法
2.KNN分類演算法
3.SVM分類演算法
4.隨機森林分類演算法
5.神經網路分類演算法 - 三.基于樸素貝葉斯演算法的影像分類
- 四.基于KNN演算法的影像分類
- 五.基于神經網路演算法的影像分類
源代碼下載地址,記得幫忙點star和關注喔,
- https://github.com/eastmountyxz/ImageProcessing-Python
時光嘀嗒嘀嗒的流失,這是我在CSDN寫下的第八篇年終總結,比以往時候來的更早一些,《敏而多思,寧靜致遠》,僅以此篇紀念這風雨兼程的一年,這感恩的一年,轉眼小寶六個月了,哈哈~這是四月的第一篇文章,加油!
- 2020年總結:敏而多思,寧靜致遠——紀念這風雨兼程的一年
2020年8月18新開的“娜璋AI安全之家”,主要圍繞Python大資料分析、網路空間安全、人工智能、Web滲透及攻防技術進行講解,同時分享CCF、SCI、南核北核論文的演算法實作,娜璋之家會更加系統,并重構作者的所有文章,從零講解Python和安全,寫了近十年文章,真心想把自己所學所感所做分享出來,還請各位多多指教,真誠邀請您的關注!謝謝,

(By:Eastmount 2021-04-01 晚上12點 http://blog.csdn.net/eastmount/ )
參考文獻:
- [1] 羅子江. Python中的影像處理[M]. 科學出版社 2020.
- [2] 岡薩雷斯. 數字影像處理(第3版)[M]. 北京:電子工業出版社, 2013.
- [3] 張恒博, 歐宗瑛. 一種基于色彩和灰度直方圖的影像檢索方法[J]. 計算機工程, 2004.
- [4] 楊秀璋, 顏娜. Python網路資料爬取及分析從入門到精通(分析篇)[M]. 北京航天航空大學出版社, 2018.
- [5] https://blog.csdn.net/gzq0723/article/details/82185832
- [6] https://blog.csdn.net/baidu_28342107/article/details/82999249.
- [7] https://blog.csdn.net/baidu_28342107/article/details/82870436.
- [8] https://www.jianshu.com/p/57e862d695f2
- [9] ttps://www.jianshu.com/p/6ab6f53874f7
- [10] https://blog.csdn.net/smilejiasmile/article/details/80752889
- [11] https://blog.csdn.net/baidu_28342107/article/details/83307633
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/271922.html
標籤:AI
