過去幾年,深度學習(Deep learning)在解決諸如視覺識別(visual recognition)、語音識別(speech recognition)和自然語言處理(natural language processing)等很多問題方面都表現出非常好的性能,在不同型別的深度神經網路當中,卷積神經網路是得到最深入研究的,早期由于缺乏訓練資料和計算能力,要在不產生過擬合(overfitting)的情況下訓練高性能卷積神經網路是很困難的,標記資料和近來GPU的發展,使得卷積神經網路研究涌現并取得一流結果,本文中,我們將縱覽卷積神經網路近來發展,同時介紹卷積神經網路在視覺識別方面的一些應用,
CNN快速發展,得益于LeNet-5、Alexnet、ZFNet、VGGNet、GoogleNet、ResNet等不同結構的設計出現,
1.CNN的基本結構
卷積神經網路的結構有很多種,但是其基本架構是相似的,拿LeNet-5為例來介紹,如下圖,它包含三個主要的層——卷積層( convolutional layer)、池化層( pooling layer)、全連接層( fully-connected layer)
圖中的卷積網路作業流程如下,輸入層由32×32個感知節點組成,接收原始影像,然后,計算流程在卷積和子抽樣之間交替進行,如下所述:
第一隱藏層進行卷積,它由6個特征映射組成,每個特征映射由28×28個神經元組成,每個神經元指定一個 5×5 的接受域;
第二隱藏層實作子抽樣和區域平均,它同樣由 6 個特征映射組成,但其每個特征映射由14×14 個神經元組成,每個神經元具有一個 2×2 的接受域,一個可訓練系數,一個可訓練偏置和一個 sigmoid 激活函式,可訓練系數和偏置控制神經元的操作點,
第三隱藏層進行第二次卷積,它由 16個特征映射組 成,每個特征映射由 10×10 個神經元組成,該隱藏層中的每個神經元可能具有和下一個隱藏層幾個特征映射相連的突觸連接,它以與第一個卷積 層相似的方式操作,
第四個隱藏層進行第二次子抽樣和區域平均計算,它由 16 個特征映射組成,但每個特征映射由 5×5 個神經元組成,它以 與第一次抽樣相似的方式操作,
第五個隱藏層實作卷積的最后階段,它由 120 個神經元組成,每個神經元指定一個 5×5 的接受域,
最后是個全連接層,得到輸出向量,
相繼的計算層在卷積和抽樣之間的連續交替,我們得到一個“雙尖塔”的效果,也就是在每個卷積或抽樣層,隨著空 間解析度下降,與相應的前一層相位元征映射的數量增加,卷積之后進行子抽樣的思想是受到動物視覺系統中的“簡單的”細胞后面跟著“復雜的”細胞的想法的啟發而產生的,
其中,卷積層,用來學習輸入資料的特征表征,卷積層由很多的卷積核(convolutional kernel)組成,卷積核用來計算不同的feature map;
激勵函式(activation function)給CNN卷積神經網路引入了非線性,常用的有sigmoid 、tanh、 ReLU函式;
池化層降低卷積層輸出的特征向量,同時改善結果(使結構不容易出現過擬合),典型應用有average pooling 和 max pooling;
全連接層將卷積層和Pooling 層堆疊起來以后,就能夠形成一層或多層全連接層,這樣就能夠實作高階的推力能力
2.CNN卷積神經網路的改進策略
自從2012年AlexNet 取得成功以后,科研作業者提出了很多改進CNN的方法,基本都是從以下六個方面入手:convolutional layer、pooling layer、activation function、loss function、regularization 、optimization
2.1convolutional layer
1). Network in network
It replaces the linear filter of the convolutional layer by a micro network
2). Inception module : 是繼承了NIN的擴展. 使用不同size的filter來捕獲不同size的visual patterns.
2.2 pooling layer
池化層是CNN的重要組成部分,它通過減少卷積層之間的連接數量來降低計算的復雜度,
1).Lp pooling:Lp 池化是建立在復雜細胞運行機制的基礎上,受生物啟發而來
2). Mixed pooling:combination of max pooling and average pooling
3).Stochastic pooling:Stochastic pooling 是受 droptout 啟發而來的方法
4).Spectral pooling
5). Spatial pyramid pooling
空間金字塔池化可以把任何尺度的影像的卷積特征轉化成相同維度,這不僅可以讓CNN處理任意尺度的影像,還能避免 cropping和warping操作,導致一些資訊的丟失,具有非常重要的意義,
一般的CNN都需要輸入影像的大小是固定的,這是因為全連接層的輸入需要固定輸入維度,但在卷積操作是沒有對影像尺度有限制,所有作者提出了空間金字塔池化,先讓影像進行卷積操作,然后轉化成維度的特征輸入到全連接層,這個可以把CNN擴展到任意大小的影像,
2.3activation function
一個合適的激勵函式可以有效地提高CNN的運算性能,常用的非線性激活函式有sigmoid、tanh、relu等等,前兩者sigmoid/tanh比較常見于全鏈接層,后者relu常見于卷積層,
sigmoid函式影像曾在神經網路和深度學習(一)中介紹過,這里再介紹ReLU、LReLU、PReLU、RReLU、ELU幾種激勵函式的特性曲線
2.4 Loss function
1). Softmax loss :
2). Hinge loss : to train large margin classifiers such as SVM
3). Contrastive loss : to train Siamese network
2.5 Regularization 正則化
通過正則化可以有效的減小CNN的過擬合問題,這里介紹兩種正則化技術——Dropout 、 DropConnect
Dropout是指在模型訓練時隨機讓網路某些隱含層節點的權重不作業,不作業的那些節點可以暫時認為不是網路結構的一部分,但是它的權重得保留下來(只是暫時不更新而已) ; 而DropConnect 是DropOut的進一步發展,不再和DropOut一樣隨意設定輸出神經元的值為0,而是隨機設定權重矩陣W 為0,
2.6 Optimization
這里介紹幾種優化CNN的關鍵技術:
1). Weights initialization
2). Stochastic gradient descent
3). Batch Normalization
4). Shortcut connections
3. 加速CNN計算速度
3.1 FFT : 使用快速傅里葉變換,可以重復利用一些單元,比如輸出梯度的傅里葉變換
3.2 Matrix Factorization : 矩陣因子分解,可以減小計算量,來加速CNN 的訓練
3.3 Vector quantization : 矢量量化(VQ)是用來壓縮密集的連接層,使得CNN模型變得更小
4. CNN 的主要應用
使用CNN,可以使得以下幾個應用達到最佳的(state-of-the-art)性能:
1). Image Classification
2). Object Tracking
3). Pose Estimation
4). Text Detection
5). Visual Saliency detection
6). Action Recognition
7). Scene Labeling
function varargout = System_Main(varargin)
gui_Singleton = 1;
gui_State = struct('gui_Name', mfilename, ...
'gui_Singleton', gui_Singleton, ...
'gui_OpeningFcn', @System_Main_OpeningFcn, ...
'gui_OutputFcn', @System_Main_OutputFcn, ...
'gui_LayoutFcn', [] , ...
'gui_Callback', []);
if nargin && ischar(varargin{1})
gui_State.gui_Callback = str2func(varargin{1});
end
if nargout
[varargout{1:nargout}] = gui_mainfcn(gui_State, varargin{:});
else
gui_mainfcn(gui_State, varargin{:});
end
function System_Main_OpeningFcn(hObject, eventdata, handles, varargin)
handles.output = hObject;
guidata(hObject, handles);
movegui(hObject,'center');
function varargout = System_Main_OutputFcn(hObject, eventdata, handles)
varargout{1} = handles.output;
%打開圖片選單
function OpenPicture_Callback(hObject, eventdata, handles)
[pathname filename]=uigetfile('.jpg','選擇圖片');
chepailujing=[pathname filename];
handles.chepailujing=chepailujing;
fpath=[filename pathname];
axes(handles.axes1);
im = imread(fpath);
%im=imresize(im,[240,320])
imshow(im);
title('原影像', 'FontWeight', 'Bold');
handles.IM=im;
guidata(hObject, handles);
fpath;
%保存圖片選單
function SavePicture_Callback(hObject, eventdata, handles)
% --- 車牌定位實作按鈕
function CarDiwei_Callback(hObject, eventdata, handles)
[PY2,PY1,PX2,PX1]=caitu_fenge(handles.IM);%分割方法
axes(handles.axes1); hold on;
row = [PY1 PY2];
col = [PX1 PX2];
plot([col(1) col(2)], [row(1) row(1)], 'g-', 'LineWidth', 3);
plot([col(1) col(2)], [row(2) row(2)], 'g-', 'LineWidth', 3);
plot([col(1) col(1)], [row(1) row(2)], 'g-', 'LineWidth', 3);
plot([col(2) col(2)], [row(1) row(2)], 'g-', 'LineWidth', 3);
hold off;
I_bai=handles.IM;
[PY2,PY1,PX2,PX1,threshold]=SEC_xiuzheng(PY2,PY1,PX2,PX1);%選著車牌位置
handles.threshold=threshold;
Plate=I_bai(PY1:PY2,PX1:PX2,:);
bw=Plate;
handles.bw=bw;
guidata(hObject,handles);
axes(handles.axes2);
imshow(bw);
title('車牌影像');
% --- Executes on button press in CarXuanzhuan.
function CarXuanzhuan_Callback(hObject, eventdata, handles)
bw=rgb2gray(handles.bw);
qingxiejiao=rando_bianhuan(bw);
handles.qingxiejiao=qingxiejiao;
bw=imrotate(bw,qingxiejiao,'bilinear','crop');
axes(handles.axes3);
imshow(bw);
title('車牌調整角度影像');
bw=im2bw(bw,graythresh(bw));%figure,imshow(bw);
bw=bwmorph(bw,'hbreak',inf);%figure,imshow(bw);
bw=bwmorph(bw,'spur',inf);%figure,imshow(bw);title('擦除之前');
bw=bwmorph(bw,'open',5);%figure,imshow(bw);title('閉合運算');
handles.bw=bw;
guidata(hObject,handles);
% --- Executes on button press in EditBlue.
function EditBlue_Callback(hObject, eventdata, handles)
bw = bwareaopen(handles.bw, handles.threshold);
bw=~bw;
bw=touying(bw);%Y方向處理
bw=~bw;%擦除反色
bw = bwareaopen(bw, handles.threshold);
bw=~bw;%二次擦除
handles.bw=bw;
guidata(hObject,handles);
axes(handles.axes4);
imshow(bw);
title('擦除多余藍色');
% --- Executes on button press in EditCar.
function EditCar_Callback(hObject, eventdata, handles)
bw=handles.bw;
[y,x]=size(bw);%對長寬重新賦值
%=================文字分割=================================
fenge=shuzifenge(bw,handles.qingxiejiao)
[m,k]=size(fenge);
%=================顯示分割影像結果=========================
figure;
for s=1:2:k-1
subplot(1,k/2,(s+1)/2);imshow(bw( 1:y,fenge(s):fenge(s+1)));
end
function CarShibie_Callback(hObject, eventdata, handles)
bw=handles.bw;
[y,x]=size(bw);
fenge=shuzifenge(bw,handles.qingxiejiao)
[m,k]=size(fenge);
%================ 給七張圖片定位===============桂AV6388
han_zi =bw( 1:y,fenge(1):fenge(2));
zi_mu =bw( 1:y,fenge(3):fenge(4));
zm_sz_1 =bw( 1:y,fenge(5):fenge(6));
zm_sz_2 =bw( 1:y,fenge(7):fenge(8));
shuzi_1 =bw( 1:y,fenge(9):fenge(10));
shuzi_2 =bw( 1:y,fenge(11):fenge(12));
shuzi_3 =bw( 1:y,fenge(13):fenge(14));
%==========================識別====================================
%======================把修正資料讀入==============================
xiuzhenghanzi = imresize(han_zi, [110 55],'bilinear');
xiuzhengzimu = imresize(zi_mu, [110 55],'bilinear');
xiuzhengzm_sz_1= imresize(zm_sz_1,[110 55],'bilinear');
xiuzhengzm_sz_2 = imresize(zm_sz_2,[110 55],'bilinear');
xiuzhengshuzi_1 = imresize(shuzi_1,[110 55],'bilinear');
xiuzhengshuzi_2 = imresize(shuzi_2,[110 55],'bilinear');
xiuzhengshuzi_3 = imresize(shuzi_3,[110 55],'bilinear');
%============ 把0-9 , A-Z以及省份簡稱的資料存盤方便訪問====================
hanzishengfen=duquhanzi(imread('picture/cpgui.bmp'),imread('picture/cpguizhou.bmp'),imread('picture/cpjing.bmp'),imread('picture/cpsu.bmp'),imread('picture/cpyue.bmp'));
%因數字和字母比例不同,這里要修改
shuzizimu=duquszzm(imread('picture/0.bmp'),imread('picture/1.bmp'),imread('picture/2.bmp'),imread('picture/3.bmp'),imread('picture/4.bmp'),...
imread('picture/5.bmp'),imread('picture/6.bmp'),imread('picture/7.bmp'),imread('picture/8.bmp'),imread('picture/9.bmp'),...
imread('picture/10.bmp'),imread('picture/11.bmp'),imread('picture/12.bmp'),imread('picture/13.bmp'),imread('picture/14.bmp'),...
imread('picture/15.bmp'),imread('picture/16.bmp'),imread('picture/17.bmp'),imread('picture/18.bmp'),imread('picture/19.bmp'),...
imread('picture/20.bmp'),imread('picture/21.bmp'),imread('picture/22.bmp'),imread('picture/23.bmp'),imread('picture/24.bmp'),...
imread('picture/25.bmp'),imread('picture/26.bmp'),imread('picture/27.bmp'),imread('picture/28.bmp'),imread('picture/29.bmp'),...
imread('picture/30.bmp'),imread('picture/31.bmp'),imread('picture/32.bmp'),imread('picture/33.bmp'));
zimu = duquzimu(imread('picture/10.bmp'),imread('picture/11.bmp'),imread('picture/12.bmp'),imread('picture/13.bmp'),imread('picture/14.bmp'),...
imread('picture/15.bmp'),imread('picture/16.bmp'),imread('picture/17.bmp'),imread('picture/18.bmp'),imread('picture/19.bmp'),...
imread('picture/20.bmp'),imread('picture/21.bmp'),imread('picture/22.bmp'),imread('picture/23.bmp'),imread('picture/24.bmp'),...
imread('picture/25.bmp'),imread('picture/26.bmp'),imread('picture/27.bmp'),imread('picture/28.bmp'),imread('picture/29.bmp'),...
imread('picture/30.bmp'),imread('picture/31.bmp'),imread('picture/32.bmp'),imread('picture/33.bmp'));
shuzi = duqushuzi(imread('picture/0.bmp'),imread('picture/1.bmp'),imread('picture/2.bmp'),imread('picture/3.bmp'),imread('picture/4.bmp'),...
imread('picture/5.bmp'),imread('picture/6.bmp'),imread('picture/7.bmp'),imread('picture/8.bmp'),imread('picture/9.bmp'));
%============================識別結果================================
i=1;%shibiezm_sz該函式識別數字有問題
jieguohanzi = shibiehanzi(hanzishengfen,xiuzhenghanzi);shibiejieguo(1,i) =jieguohanzi; i=i+1;
jieguozimu = shibiezimu(zimu,xiuzhengzimu); shibiejieguo(1,i) =jieguozimu; i=i+1;
jieguozm_sz_1= shibiezm_sz(shuzizimu,xiuzhengzm_sz_1); shibiejieguo(1,i) =jieguozm_sz_1;i=i+1;
jieguozm_sz_2= shibiezm_sz(shuzizimu,xiuzhengzm_sz_2); shibiejieguo(1,i) =jieguozm_sz_2;i=i+1;
jieguoshuzi_1= shibieshuzi(shuzi,xiuzhengshuzi_1); shibiejieguo(1,i) =jieguoshuzi_1;i=i+1;
jieguoshuzi_2= shibieshuzi(shuzi,xiuzhengshuzi_2); shibiejieguo(1,i) =jieguoshuzi_2;i=i+1;
jieguoshuzi_3= shibieshuzi(shuzi,xiuzhengshuzi_3); shibiejieguo(1,i) =jieguoshuzi_3;i=i+1;
%==========================對話框顯示顯示=============================================
set(handles.Result,'String', shibiejieguo);
handles.shibiejieguo=shibiejieguo;
guidata(hObject,handles);
% --- Executes on button press in CarVoide.
function CarVoide_Callback(hObject, eventdata, handles)
duchushengyin(handles.shibiejieguo);
% --- Executes on button press in CNNbut.
function CNNbut_Callback(hObject, eventdata, handles)

》》 喜歡可以關注我
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/291769.html
標籤:AI

