目標檢測入門論文YOLOV1精讀以及pytorch原始碼復現(yolov1)-有解無憂

結果展示

其中綠線是我繪制的影像劃分網格，

這里的loss是我訓練的 0.77 ，由于損失函式是我自己寫的，所以可能跟大家的不太一樣，這個不重要，重要的是學習思路，

重點提示

yolov1是一個目標檢測的演算法，他是一階段的檢測演算法，

一階段（one-stage）：檢測物體的同時進行分類，（代表論文：yolov1 - yolov5）

二階段（two-stage）：先檢測出物體，再進行分類，（代表論文：rcnn，fast-rcnn）

重點要理解yolov1的資料特征標注方式，

只有理解了資料特征的標注方式才可以理解他為什么可以起作用，

論文剖析

1、理解VOC資料集的資料形式，

2、從VOC資料集中提取出標注好的資料特征，

3、yolov1的資料組織，

4、yolov1的演算法模型，

5、yolov1的準確率評估方式（IOU），

6、yolov1的損失函式，

理解VOC資料集

首先需要知道我們使用的資料集的形式，因為每一個資料集的特征標注以及組織方式都不同，

我們可以去官網下載voc的資料集，這里使用的是voc2012資料集，

VOC資料集鏡像網站. 下載voc2012的Train/Validation Data (1.9 GB)，

資料集下載之后解壓出來是這樣子：

每個檔案夾存放的啥都標注好了，我們這里用不到那么多，

我們只用jpg原圖，以及每個原圖中目標的位置即可，（下邊圖片中畫紅框的兩個檔案夾）

但是我們發現，Annotations檔案夾中的目標位置資訊是存放在xml中，所以我們往下分析一個xml檔案看看，

<filename> : 表示這個檔案是對應于哪一個 jpg 圖片的，

<size>：表示對應的 jpg 圖片大小，

<object>：就是這個圖片中的目標在圖片中的資訊，包括：目標名字，是否難識別，以及目標在整個圖片中的坐標位置，（有幾個 object 就是有幾個目標）

提取目標初始資料

上邊我們分析出每個圖片中有什么目標都是存盤在xml檔案中的，所以我們需要將xml檔案的目標與類別資料提取出來，以便我們使用，

思路：

1、使用庫 xml.etree.ElementTree 讀取xml格式的檔案，從中提取出每一個xml檔案中的所有<ojgect>標簽資料（個數就是目標的數量），
2、將<object>標簽提取出 類別、xmin、ymin、xmax、ymax ，并且將其歸一化為 類別、x、y、w、h，

歸一化就是根據從目標中提取出的 xmin、ymin、xmax、ymax 得到目標的寬高，分別除以整個圖片的寬高，

x：目標的中心位置x坐標， y：目標的中心位置y坐標， w：目標的寬度，h：目標的高度，

3、然后將歸一化的資料按照上面的格式，整理為labels檔案，

每一個labels檔案對應于一個圖片，labels檔案中的每一行就是這個圖片中的一個目標的 類別、x、y、w、h 資料（一個圖片有幾個目標，對應的labels檔案就有幾行），

例子：

針對如下xml檔案，可以得知：

對應的jpg圖片是 2007_000042.jpg，并且圖片的大小是 500*335 的三色圖（這里的圖片大小就是用來歸一化的），

含有兩個<object>標簽，所以這個圖片中有兩個目標，并且目標的類別、位置坐標可以根據name、xmin、ymin、xmax、ymax 得到，

<annotation>
	<folder>VOC2012</folder>
	<filename>2007_000042.jpg</filename>
	<source>
		<database>The VOC2007 Database</database>
		<annotation>PASCAL VOC2007</annotation>
		<image>flickr</image>
	</source>
	<size>
		<width>500</width>
		<height>335</height>
		<depth>3</depth>
	</size>
	<segmented>1</segmented>
	<object>
		<name>train</name>
		<pose>Unspecified</pose>
		<truncated>1</truncated>
		<difficult>0</difficult>
		<bndbox>
			<xmin>263</xmin>
			<ymin>32</ymin>
			<xmax>500</xmax>
			<ymax>295</ymax>
		</bndbox>
	</object>
	<object>
		<name>train</name>
		<pose>Unspecified</pose>
		<truncated>1</truncated>
		<difficult>0</difficult>
		<bndbox>
			<xmin>1</xmin>
			<ymin>36</ymin>
			<xmax>235</xmax>
			<ymax>299</ymax>
		</bndbox>
	</object>
</annotation>