主頁 >  其他 > 萬字長文教會小師妹何為YOLO,并實戰演練(附原始碼)

萬字長文教會小師妹何為YOLO,并實戰演練(附原始碼)

2021-06-09 21:01:12 其他

?大家好,我是羽峰,公眾號:羽峰碼字,歡迎來撩,

接下來本文要講的是YOLOv1--YOLOv3演算法的原理,及YOLOv3的實作,一文帶你了解YOLO的來龍去脈,希望各位讀完本文會有所識訓,

目錄

YOLOv1

YOLOv1結構

YOLOv1損失函式

YOLOv2

YOLOv2相對于YOLOv1的主要改進

Anchor 機制

YOLOv3

YOLOv3的改進?

YOLOv3代碼實戰

1. 資料集標注

2. 資料預處理

3. 訓練和測驗

YOLO系列總結


YOLOv1

YOLOv1演算法是YOLO系列演算法的基礎,理解YOLOv1可以更好的理解YOLO系列演算法,

YOLOv1結構

首先我們要理解的是yolo的網路結構,如圖1所示,

其實網路結構比較簡單,就是簡單的CNN網路,池化操作,以及全連接網路,

我們主要理解輸入與輸出之間的映射關系,中間網路只是求取這種映射關系的一種工具,網路的輸入是448*448*3的一個彩色影像,而網路的輸出是7*7*30的多維向量,下面我們將詳細的來解釋這種映射關系,這種映射關系也是YOLOv1的根本

圖1

YOLO的輸入與輸出如圖2所示,左邊是一張圖片,中間的圓形可看作是目標物體,當圖片輸入到網路中,YOLOv1首要做的是將圖片分成7*7的網格,從中間影像中可以看出,紅色代表的是網格,藍色代表的是目標物體的中心,然后黃色代表的是真實的物體邊框,

這里有個最重要的一個概念就是:當物體中心落在某個網格中心時,那么這個網格就負責預測這個物體,這是yolov1的一個基礎

每個網格預先都會生成兩個預測框,這樣YOLOv1一共生成7*7*2=98個預測框,相比于faster rcnn 成百上千的預測框來說,YOLO的預測框明顯少了很多,這是YOLO非常快速的一個原因

每個預測框都會對應一個30維的向量,這30維向量是2*5+20得來的,其中20是20個類別,這里之所以為20,是因為原論文所做的就是對20個物體進行分類,如果我們自己的資料集有n個類別,那么這里的20就可以改為n個類別,

然后2代表的是2個邊框,因為最開始每個網格會生成兩個預測框,而5則代表每個邊框中有五個參量,分別是邊框的中心坐標(x, y),邊框的寬w和高h,還有一個是框的置信度,置信度公式計算如圖公式所示,置信度大的那一個預測框就會被選為該網格的預測邊框,

網路的輸出就是7*7*30維的向量,與輸入存在一個數學上的映射關系,而中間的yolo網路只是求這個映射關系的一種工具,接下來我們將重點研究一下yolo的損失函式,

圖2 輸入與輸出的映射關系

YOLOv1損失函式

損失函式大致分為3個部分,第一個是坐標的預測,分別是邊框的x, y, w, h,

第二個是物體的置信度預測,

第三個是物體的類別預測,

損失函式與7*7*30維的向量相對應,是求取輸入與輸出之間映射關系誤差的“數學運算式”,

圖3 YOLOv1的損失函式

首先我們看一下坐標損失函式,如圖4所示,

每個引數的意義如圖所示,之所以采用根號來計算物體的長和寬,是因為根號后的大物體的長寬損失與小物體的長寬損失相近,這樣整個損失函式不會被大物體所操縱,若不采用根號計算,那么大物體的損失要比小物體損失大很多,那么這個損失函式會對大物體比較準確而忽略了小物體,

公式前的系數是一個超引數,這是設定為5,因為物體檢測程序中,我們所要檢測的物體相對與背景來說要少的很多,所以加入這個超引數是為了平衡“非物體”對結果的影響,

圖4 坐標損失函式

置信度的損失函式如圖5所示,每個引數的意義如圖所示,

這里為什么要加入“非物體”的置信度呢,是因為網路要想學習分類n個物體,那他實際要學n+1個類別,那多出的“1”是背景或者就是真實意義上的非物體,這一類是占有很大一部分比例的,所以必須要學習這一類,才能保證網路的準確性,

那這里為什么要在“非物體”的置信度前邊加上超引數呢?

也是因為我們所檢測的目標物體相對于“非物體”是很少的,如果不加入這個超引數,那么“非物體”的置信度損失就會很大,所占權重比較大,這樣會導致網路只學習到了“非物體”特征,而忽略了目標物體特征,

圖5 置信度損失函式

最后則是類別損失函式,如圖6所示,類別損失是一個很粗暴的兩個類別做減法,這是YOLOv1不可取的一部分,當然后續就改掉了,

圖6 類別損失函式

最后我們來做個總結,YOLO的優點就是速度快,YOLOv1缺點也很明顯,

  1. 對擁擠物體檢測不太好:因為擁擠物體的中心有可能都落在一個網格中心,那么這個網格可能就要預測兩個物體,這是很不好的,

  2. 對小物體檢測效果不好,小物體損失雖然使用的超引數或者根號進行了平衡,但小物體的損失占比還是小,網路主要學習的還是大物體特征,

  3. 對非常規的物體形狀或者比例,檢測效果不好

  4. 沒有batch normalize.

YOLOv2

YOLOv2相對于YOLOv1的主要改進

YOLOv2的第一個改進就是網路的改進,使用DarckNet19代替了YOLOv1的GoogLeNet網路,這里主要改進是去掉了全連接層,用卷積和softmax進行代替,

YOLOv2的第二個改進是在網路中加入了Batch Normalization,使用Batch Normalization對網路進行優化,讓網路提高了收斂性,同時還消除了對其他形式的正則化(regularization)的依賴,

YOLOv2的第三個改進是增加了HighResolution Classifier,具體做法是:首先在448×448的全解析度下在ImageNet上微調分類網路的10個epoch,這使網路有時間調整其過濾器,使其在更高解析度的輸入上更好地作業,然后,我們根據檢測結果對網路進行微調,這種高解析度分類網路使我們的mAP幾乎提高了4%,

YOLOv2的第四個改進是Multi-ScaleTraining,讓網路在不同的輸入尺寸上都能達到一個很好的預測效果,同一網路能在不同解析度上進行檢測,當輸入圖片尺寸比較小的時候跑的比較快,輸入圖片尺寸比較大的時候精度高,

Anchor 機制

YOLOv2的第五個改進是加入了Anchor機制,這個是最重要的一個改進,也是本文將重點講解的一個改進,

首先我們要了解什么是Anchor機制,Anchor首先要預設好幾個虛擬框,在用回歸的方法確定最終的預測框,

在YOLOv2中,使用K-means演算法來生成Anchor bbox,如圖7所示,當k=5時,模型的復雜度與召回率達到了一個比較好的平衡,所以YOLOv2使用了5個Anchor bbox ,

圖7

將YOLOv1的輸出與YOLOv2輸出進行對比,如圖2所示,

YOLOv1是的輸出7*7*30的多維向量,其中7*7是解析度,對原圖進行了7*7的分割,每個網格對應一個包含30個引數的向量,每個向量中包含兩個bbox,每個bbox中包含5個向量,分別是bbox的質心坐標(x,y)和bbox的長和寬,還有一個bbox的置信度,剩下20個則是類別概率,

而YOLOv2對此進行了修改,YOLOv2輸出的是13*13*5*25的一個多維向量,其中13*13是解析度,也就是說網路將輸入圖片分成了13*13的網格,每一個網格對應一個包含5*25=125個引數的一維向量,其中5代表5個Anchor bbox,每個Anchor bbox中包含25個引數,分別是bbox的質心坐標(x,y)和bbox的長和寬,還有一個bbox的置信度,剩下20個則是類別概率,

這樣的好處是YOLOv2可以對一個區域進行多個標簽的預測,比如一個“人”的目標物體,他可以屬于“人”這個標簽,也可以屬于“男”或者“女”這個標簽,也可以是“老師”,“學生”或者“職工”等這些標簽,而YOLOv1只能預測目標物體的一個類別這里所做的最主要的改變是:bbox的四個位置引數的損失函式計算方法發生了改變,

圖8 輸出對比

首先我們來認識一下Anchor bbox, Predicated bbox以及Ground truth bbox 三者之間的關系,

如圖9所示,紅色框代表了Anchor bbox,藍色框代表了 Predicated bbox,綠色框則代表了Ground truth bbox,

我們希望的是Anchor bbox 接近于Ground truth bbox,但Anchor bbox是預先設定好的,不可以更改,

但Anchor bbox可以生成不同的Predicated bbox,所以我們將我們目標轉化為:Predicated bbox更接近于Ground truth bbox, 將這個目標轉化為數學運算式就是f(x),具體如圖所示,那么我們的目標就變成了數學上的 tp 更加接近于tg,式子中都做了歸一化,防止大物體干擾整個計算結果,

圖9三者之間關系

其次我們要了解一下坐標轉換的概念,YOLOv1的坐標是相對于整個影像的,而YOLOv2的坐標是相對于每個網格的,那如何得到相對網格的這個坐標呢,又是如何計算loss值的呢?

如圖10所示,最開始我們會生成Anchor bbox,這時候的這個bbox是相對于整個影像來說的,所以此時我們要進行歸一化,歸一到[0,1]之間,

YOLOv2的解析度是13*13,所以我們要將這個[0,1]之間的坐標乘上13,使得bbox的坐標是相對于13個網格的,此時坐標范圍在[0,13]之間,此時我們在進行歸一化操作,使得此時的坐標是相對于單獨一個網格的,歸一化計算公式是xf = x-i, yf = y-j, wf = log(w/anchors[0]),hf = log(h/anchors[1]),這里我們可以舉個粒子,加入x = 9.6x的范圍是[0,13]),那么此時的ix的整數部分,也就是i = 9, 所以xf = 0.6,此時這個0.6就是相對于軸向第10個網格的x軸坐標,

圖10 坐標變換

最后就是的loss 計算,如圖11所示,圖片中間的公式就是YOLOv2 loss的計算公式,這個計算公式坐標計算是相對于網格的,而其對應的f(x)則是相當于整個影像的,

網路會計算得到δ(tx),δ(ty),其中δ是sigmoid函式,將網路輸出歸一化到[0,1]之間,這樣就會得到相對于某個網格的質心位置,加上該網格相對于整個13*13網格的偏移值,就會得到預測bbox的質心位置,高和寬,調整這個值,使其更加接近于真實的bbox,

圖11 總結

YOLOv3

YOLOv3的改進?

YOLOv3的第一個改進是網路的結構的改變,引入了ResNet思想,但是如果將ResNet模塊完全引進是整個模型就很大,所以直接將ResNet模塊的最后一層1*1*256去掉,而且將倒數第二層3*3*64直接改成3*3*128,整個網路結構如圖所示,輸入的是416*416*3的RGB影像,網路會輸出三種尺度的輸出,最后輸出每個目標物體的類別和邊框,

YOLOv3的第二個改進是多尺度訓練,是真正的多尺度,一共有3種尺度,分別是13*13,26*26,52*52三種解析度,分別負責預測大,中,小的物體邊框,這種改進對小物體檢測更加友好,

YOLOv3多尺度訓練的原理如圖所示,首先一個影像輸入,被YOLOv3分割成13*13,26*26,52*52的網格,每種解析度的每個網格分別對應一個多維向量,每個向量包括三個邊框,每個邊框中包含85個引數,分別是邊框的中心位置(x,y),邊框的置信度,還有80個類別概率,最后輸出每個物體的類別概率和邊框,

YOLOv3代碼實戰

1. 資料集標注

訓練YOLOv3首先要進行LabelImg標注,

LabelImg的網址為:https://github.com/tzutalin/labelImg,

安裝程式如圖所示:

安裝好之后,界面如圖所示:

首先點擊”open”打開圖片,如圖所示,打開的是一個狗和貓的圖片,然后選擇邊框進行標注,

標注好之后應該,應該備注目標物體類別,如圖所示:

標注好之后會生成“catdog.xml”檔案,

檔案內容如圖所示:

最后分別將圖片(catdog)放入 ./VOCdevkit/VOC2007/JpegImages, LabelImg標注影像放進“Annotations”中,如圖所示:

2. 資料預處理

當圖片和xml檔案都準備好之后 ,運行“voc2yolo3.py”程式,生成資料集串列檔案,將圖片上對應的”voc_classes.txt”換成你自己的分類標簽,如果有多個類別,請將每個類別單獨放一行,

為了方便展示,我這里是臨時加入了一些圖片資料,不是本YOLOv3所執行的,后邊圖片中的資料都是原yolov3的資料,所以有些資料對應不上,但執行整個程序是接下來要說的,如果訓練自己的資料集,需要將自己的資料粘貼到對應位置,

之后在運行“voc_annotation.py”程式,運行之前,首先將程式中的類別改成你自己的類別,我這里類別只有一個“particle”,

 

之后在運行“kmeans.py”程式,運行好之后會生成k anchor,這些數字代表了你的預生成的標注框大小,將這些標注框資料首先放入如圖所示的位置,并按照“yolo_anchors.txt”原有格式進行修改,

 

接下來在復制這些數字到“yolov3.cfg”中,搜索”yolo”將對應的anchors 和classes 進行修改,classes選擇你要分類的類別,我這里只有1個類別,就改成了1,一共有3個“yolo”,都要修改,

3. 訓練和測驗

當所有作業都做好之后,就可以訓練了,直接執行 “train.py”就可以了,注意權重的保存路徑和一些引數的調整就可以了,

訓練完成之后,執行“yolo_video.py”進行測驗就行,如果是從我公眾號下載的yolov3,需要將yolo_video.py做如下修改:

YOLO系列總結

以上 就是我今天要分享的內容,謝謝各位,如有錯誤,歡迎批評指正,

如果想要YOLOv3代碼,歡迎關注“羽峰碼字”公眾號,并回復“YOLOv3”獲取相應代碼,


我是羽峰,公眾號:羽峰碼字,我們下期見,

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/286189.html

標籤:AI

上一篇:Pandas系列教程:盛大開篇了!

下一篇:在 Python 中使用 OpenCV 高斯模糊我這張的丑臉

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 2023年最新微信小程式抓包教程

    01 開門見山 隔一個月發一篇文章,不過分。 首先回顧一下《微信系結手機號資料庫被脫庫事件》,我也是第一時間得知了這個訊息,然后跟蹤了整件事情的經過。下面是這起事件的相關截圖以及近日流出的一萬條資料樣本: 個人認為這件事也沒什么,還不如關注一下之前45億快遞資料查詢渠道疑似在近日復活的訊息。 訊息是 ......

    uj5u.com 2023-04-20 08:48:24 more
  • web3 產品介紹:metamask 錢包 使用最多的瀏覽器插件錢包

    Metamask錢包是一種基于區塊鏈技術的數字貨幣錢包,它允許用戶在安全、便捷的環境下管理自己的加密資產。Metamask錢包是以太坊生態系統中最流行的錢包之一,它具有易于使用、安全性高和功能強大等優點。 本文將詳細介紹Metamask錢包的功能和使用方法。 一、 Metamask錢包的功能 數字資 ......

    uj5u.com 2023-04-20 08:47:46 more
  • vulnhub_Earth

    前言 靶機地址->>>vulnhub_Earth 攻擊機ip:192.168.20.121 靶機ip:192.168.20.122 參考文章 https://www.cnblogs.com/Jing-X/archive/2022/04/03/16097695.html https://www.cnb ......

    uj5u.com 2023-04-20 07:46:20 more
  • 從4k到42k,軟體測驗工程師的漲薪史,給我看哭了

    清明節一過,盲猜大家已經無心上班,在數著日子準備過五一,但一想到銀行卡里的余額……瞬間心情就不美麗了。最近,2023年高校畢業生就業調查顯示,本科畢業月平均起薪為5825元。調查一出,便有很多同學表示自己又被平均了。看著這一資料,不免讓人想到前不久中國青年報的一項調查:近六成大學生認為畢業10年內會 ......

    uj5u.com 2023-04-20 07:44:00 more
  • 最新版本 Stable Diffusion 開源 AI 繪畫工具之中文自動提詞篇

    🎈 標簽生成器 由于輸入正向提示詞 prompt 和反向提示詞 negative prompt 都是使用英文,所以對學習母語的我們非常不友好 使用網址:https://tinygeeker.github.io/p/ai-prompt-generator 這個網址是為了讓大家在使用 AI 繪畫的時候 ......

    uj5u.com 2023-04-20 07:43:36 more
  • 漫談前端自動化測驗演進之路及測驗工具分析

    隨著前端技術的不斷發展和應用程式的日益復雜,前端自動化測驗也在不斷演進。隨著 Web 應用程式變得越來越復雜,自動化測驗的需求也越來越高。如今,自動化測驗已經成為 Web 應用程式開發程序中不可或缺的一部分,它們可以幫助開發人員更快地發現和修復錯誤,提高應用程式的性能和可靠性。 ......

    uj5u.com 2023-04-20 07:43:16 more
  • CANN開發實踐:4個DVPP記憶體問題的典型案例解讀

    摘要:由于DVPP媒體資料處理功能對存放輸入、輸出資料的記憶體有更高的要求(例如,記憶體首地址128位元組對齊),因此需呼叫專用的記憶體申請介面,那么本期就分享幾個關于DVPP記憶體問題的典型案例,并給出原因分析及解決方法。 本文分享自華為云社區《FAQ_DVPP記憶體問題案例》,作者:昇騰CANN。 DVPP ......

    uj5u.com 2023-04-20 07:43:03 more
  • msf學習

    msf學習 以kali自帶的msf為例 一、msf核心模塊與功能 msf模塊都放在/usr/share/metasploit-framework/modules目錄下 1、auxiliary 輔助模塊,輔助滲透(埠掃描、登錄密碼爆破、漏洞驗證等) 2、encoders 編碼器模塊,主要包含各種編碼 ......

    uj5u.com 2023-04-20 07:42:59 more
  • Halcon軟體安裝與界面簡介

    1. 下載Halcon17版本到到本地 2. 雙擊安裝包后 3. 步驟如下 1.2 Halcon軟體安裝 界面分為四大塊 1. Halcon的五個助手 1) 影像采集助手:與相機連接,設定相機引數,采集影像 2) 標定助手:九點標定或是其它的標定,生成標定檔案及內參外參,可以將像素單位轉換為長度單位 ......

    uj5u.com 2023-04-20 07:42:17 more
  • 在MacOS下使用Unity3D開發游戲

    第一次發博客,先發一下我的游戲開發環境吧。 去年2月份買了一臺MacBookPro2021 M1pro(以下簡稱mbp),這一年來一直在用mbp開發游戲。我大致分享一下我的開發工具以及使用體驗。 1、Unity 官網鏈接: https://unity.cn/releases 我一般使用的Apple ......

    uj5u.com 2023-04-20 07:40:19 more