使用 YOLO 進行目標檢測-有解無憂

點擊上方“小白學視覺”，選擇加"星標"或“置頂”

重磅干貨，第一時間送達

自從世界了解人工智能以來，有一個特別的用例已經被討論了很多，它們是自動駕駛汽車，我們經常在科幻電影中聽到、讀到甚至看到這些，有人說，我們將在2010年擁有自動駕駛汽車，有人說到2020年，但我們在2021年就實作了，我們剛剛能夠解決自動駕駛汽車給世界帶來的變化的一角，自動駕駛汽車的一個基本特性，物件檢測，

什么是目標檢測?

物體檢測——顧名思義就是通過深度學習演算法檢測影像或視頻中的物體，目標檢測的目的是識別和定位場景中所有已知的目標，有了這種識別和定位，目標檢測可以用來計數場景中的目標，確定和跟蹤它們的精確位置，同時精確地標記它們，

目標檢測通常與影像識別相混淆，所以在我們繼續之前，澄清它們之間的區別是重要的，

影像識別為影像分配一個標簽，狗的圖片會被貼上“狗”的標簽，兩只狗的照片仍然會被貼上“狗”的標簽，另一方面，物件檢測在每只狗周圍畫一個盒子，并給這個盒子貼上“狗”的標簽，模型預測每個物件在哪里以及應該應用什么標簽，通過這種方式，目標檢測比識別提供了更多關于影像的資訊，

物體檢測與影像識別和影像分割等其他類似的計算機視覺技術密不可分，因為它有助于我們理解和分析影像或視頻中的場景，

鑒于這些關鍵的區別和物體檢測的獨特能力，我們可以看到為什么它可以在日常使用優勢的多種方式中應用，一些常見的例子是自動駕駛汽車，人臉檢測，交通調節，視頻監控，人群計數，例外檢測等，

資料集

在這個專案中，我們使用了VOC2012資料集，VOC代表2012年視覺物體分類挑戰賽，這個資料集包含了來自PASCAL視覺物件分類挑戰的資料，對應于分類和檢測比賽，所提供的訓練資料由一組影像組成;每個影像都有一個注釋檔案，為影像中20個類中的每個物件提供一個邊界框和物件類標簽，有17125幅影像可供訓練，資料的大小大約為2GB，

演算法

我們使用YOLO(你只看一次)演算法進行物件檢測，YOLO是一個聰明的卷積神經網路(CNN)，用于實時進行目標檢測，該演算法將單個神經網路應用于完整的影像，然后將影像劃分為多個區域，并預測每個區域的邊界框和概率，這些邊界框是由預測的概率加權的，要理解YOLO，我們首先要分別理解這兩個模型，

YOLO演算法- YOLO演算法是一種基于回歸的演算法，它不是選擇影像中有趣的部分，而是預測整個影像中的類和包圍框運行一次演算法，要理解YOLO演算法，我們首先需要了解實際預測的是什么，最終，我們的目標是預測一類物件和指定物件位置的邊界框，每個包圍框可以用四個描述符來描述:

●矩形x中央(bx, by)

●寬度(bw)

●高度(bh)

●物件的類

YOLO不會在輸入影像中搜索可能包含物件的感興趣區域，而是將影像分割成單元格，通常是19×19網格，每個細胞負責預測K個包圍框，具有最大概率的類被選擇并分配給特定的網格單元，類似的程序發生在影像中的所有網格單元格上，

在預測類概率后，下一步進行非最大抑制，這有助于演算法消除不必要的錨點，

一旦完成，演算法就會找到具有下一個最高類別概率的包圍框，并進行相同的程序，直到我們剩下所有不同的包圍框為止，

在此之后，我們幾乎完成了所有的作業，演算法最終輸出所需的向量，顯示各個類的包圍框的細節，

微小Yolo演算法——為了讓Yolo運行得更快，Redmon等人(Yolo的創建者)定義了Yolo架構的一個變體，稱為微小Yolo，

YOLOv3(和v3)根據一組預定的盒(具有特定的高寬比)預測偏移量——這些預定的包圍框就是錨盒，我們設定了一個條件如果這些包圍框的長度是6而不是YOLO演算法我們就會實作Tiny YOLO模型

實作

1.它從檔案的注釋開始，這基本上意味著在文本檔案中有影像的所有路徑并使用它讀取資料，

2.我們從網上下載Yolov3權重，然后我們將Darknet YOLO模型轉換為Keras模型，然后實作目標檢測，

3.從頭開始實作它是一個具有挑戰性的模型，特別是對于初學者，因為它需要開發許多定制的模型元素來進行訓練和預測，例如，即使直接使用預先訓練好的模型，也需要復雜的代碼來提取和解釋模型輸出的預測邊界框，

4.我們訓練這個模型并添加模型檢查點、降低學習率、提前停止和張量板，然后我們訓練我們的模型與凍結層首先得到一個穩定的損失和Adam Optimizer編譯，并節省權重，

5.凍結一層也是一種通過逐步凍結隱藏層來加速神經網路訓練的技術，在神經網路的背景下凍結一層是關于控制權值更新的方式，當一個層被凍結時，這意味著權重不能被進一步修改，

6.完成以上動作后，繼續訓練模型，這基本上是對模型進行微調，為了應用這個更改，我們使用Adam Optimizer重新編譯模型，然后再裝一次，然后節省重量，模型訓練在這里完成，

7.要將這個模型應用于視頻/影像，我們將輸入和輸出視頻路徑的路徑作為引數，然后加載模型并傳遞配置的路徑和權重，然后，我們使用Cv2視頻捕獲指向輸出視頻檔案，并確定視頻中的幀數，從輸入幀構造一個blob，然后執行YOLO物件檢測器的前向傳遞，最后給出邊界框

8.執行這一切我們最后遍歷輸出層和每個檢測在每個輸出后我們添加邊框,定義其動態形狀,根據物件的大小,過濾掉弱概率,應用non-maxima抑制抑制弱,重疊邊界框,并確保至少一個檢測存在，最后繪制一個邊界框矩形并在框架上進行標記，并將輸出框架寫入磁盤，

最后，是我們的測驗，可以看出進行了有效檢測，

輸入視頻截圖

輸出視頻截圖

結論

我們在這個專案中探索的下一步是將其作為一個web應用程式部署，我們目前面臨的主要限制是沒有足夠的RAM和空間來在云上托管它，但是，也許使用更輕的模型，我們會嘗試，同時也有這個實時應用，

下載1：OpenCV-Contrib擴展模塊中文版教程

在「小白學視覺」公眾號后臺回復：擴展模塊中文教程，即可下載全網第一份OpenCV擴展模塊教程中文版，涵蓋擴展模塊安裝、SFM演算法、立體視覺、目標跟蹤、生物視覺、超解析度處理等二十多章內容，

下載2：Python視覺實戰專案52講

在「小白學視覺」公眾號后臺回復：Python視覺實戰專案，即可下載包括影像分割、口罩檢測、車道線檢測、車輛計數、添加眼線、車牌識別、字符識別、情緒檢測、文本內容提取、面部識別等31個視覺實戰專案，助力快速學校計算機視覺，

下載3：OpenCV實戰專案20講

在「小白學視覺」公眾號后臺回復：OpenCV實戰專案20講，即可下載含有20個基于OpenCV實作20個實戰專案，實作OpenCV學習進階，

交流群

歡迎加入公眾號讀者群一起和同行交流，目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫學影像、GAN、演算法競賽等微信群（以后會逐漸細分），請掃描下面微信號加群，備注：”昵稱+學校/公司+研究方向“，例如：”張三 + 上海交大 + 視覺SLAM“，請按照格式備注，否則不予通過，添加成功后會根據研究方向邀請進入相關微信群，請勿在群內發送廣告，否則會請出群，謝謝理解~

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/290765.html

標籤：其他

上一篇：訊飛小車比賽語音控制（基礎）

下一篇：Python，OpenCV中的霍夫圓變換——cv2.HoughCircles()