目錄
- 素材標注工具
- 標注可能存在的問題
- 標注注意事項
- 標注框大小合適
- 標注框位置合適
- 目標遮擋時處理
- 標注不能遺漏目標物件
- 標注不能存在過標注情況
- 對于非常模糊的目標物件的處理
- 物件分開標注問題
- 標注框不完整
- 如何提高素材標注質量
- 素材數量
- 素材的均衡度
- 標注質量
? ? 算力和資料是影響深度學習的兩個關鍵因素,在算力滿足的情況下,為了達到更好的效果,我們就需要提供海量優質素材資料給神經網路,以求訓練出來高精度的網路模型,在平時的測驗程序中,也發現基于深度學習的演算法,素材的數量、素材的均衡度和標注的質量對訓練出來的模型精度影響非常大,
? ? 常見的演算法模型訓練所需要的素材格式主要為:
- 二維影像檔案
- 對應二維影像中人工標注出來的目標資訊,包括目標坐標[(xmin,ymin)(xmax、ymax)]/大小、目標型別(class)
? ? 模型訓練的程序就是將上述素材輸入到神經網路,經過反復迭代優化,以求得到效果最好的通用模型,在實際應用模型的時候,會根據檢測到目標物件輸出坐標/大小、目標型別、置信度,用一種資料型別表示如下:
(xmin,ymin,xmax,ymax,class,score)
可設定一個門限值,通過與score進行比較,過濾掉部分結果
素材標注工具
? ? 通過對深度學習的基礎知識學習,我們可以理解深度學習就是通過輸入海量標注素材,不斷調整模型引數去擬合,最終輸出效果較好的模型,再通過輸入非素材中的資料來預測結果,以求達較高的預測準確率和通用性,以下為目前常用的影像素材標注工具labelImg,標注完成后會生成相應的xml檔案,用以標識坐標和型別,如下圖所示:
- 標注工具

- xml檔案

標注可能存在的問題
? ? 影像標注時,需要人工標出目標的位置和大小,并給出或選擇目標型別,所以對人工標注是有一定要求的,常見的標注問題如下所示:
- 標注框過大或過小
- 標注框位置不正確
- 標注型別錯誤
- 存在漏標注情況
- 存在過標注情況
- 模糊的目標也進行標注
- 標注分割錯誤問題
- 標注框不完整,存在缺失
因此一個合格的標注應該具備以下因素:
- 標注框大小和位置合適
- 標注框能將目標物件圍住
- 標注框的物件型別準確無誤
- 一個標注框中僅包含一種目標物件型別
標注注意事項
標注框大小合適
? ? 標注框大小合適意味著所畫的標注矩形框剛好將目標物件包圍住,物件與標注框間的間隙合適,不能過大也不能過濾,過大會傳遞給網路不必要的資訊,太小傳遞給網路的資訊會存在缺失,

標注框位置合適
? ? 位置一般是標注框大小合適,但存在與目標物件存在偏移的情況,如下所示:

目標遮擋時處理
? ? 在標注時,不能僅標注完整可見的目標物件,對于人眼可見能分辨的物件也要進行標注,為提高模型通用性,很多遮擋目標也是需要能被模型檢測識別出來的,針對這種情況需要根據具體業務規則進行處理,一般需要遵循的原則如下所示:
- 物件的遮擋面積小于20%~40%,即人眼可視面積為60%~80%需要進行標注
- 對于遮擋的物件,標注時只需要標注可見部分
- 對于遮擋的物件,人眼可以識別出物件型別

標注不能遺漏目標物件
? ? 雖然各個演算法對小目標的檢測效果有所差異,但對于小目標的目標物件仍然需要進行標注,遵循的原則跟目標遮擋時的處理一樣,只要人眼可以進行分辨,仍然需要進行標注,

標注不能存在過標注情況
? ? 不同的業務,對于目標的識別也是不一樣的,如對于Logo侵權這種問題,如國際一些公開通用的Logo則不需要進行標注,如下所示:

針對Logo侵權的目標物件,一般列印體字無需要進行標注,但對于藝術字或單獨設計的字體也是需要進行標注的,
對于非常模糊的目標物件的處理
? ? 這種情況一般是被遮擋面積過大、距離太遠或影像和視頻解析度很低,導致人眼無法進行分辨,針對這種情況則無需進行標注,

物件分開標注問題
? ? 這種情況需要根據業務場景進行區分處理,在平時測驗,我所遵循的原則如下所示:
- 背景為純色
- 影像中的物件可以被分割為一個獨立可識別的物件個體
同時滿足以上兩個條件,則進行單獨標注,否則則當作一個整體進行標注,

標注框不完整
? ? 這種情況一般為標注軟體Bug或人工標注出現越界,導致標注框看起來存在部分框缺失,如下所示:

如何提高素材標注質量
從素材的三大關鍵要素(素材數量、素材的均衡度、標注質量)來看,我們可以采用以下方式來保證素材質量
素材數量
? ? 在收集資料時,需要盡可能多的從各個渠道多收集素材資料,如合法爬蟲、公開資料集等
素材的均衡度
? ? 素材的均衡度通常是指素材的多樣性分布,如視頻里面,由于拍攝的角度不同,出來的素材角度也是不同,如前方、后方、左側、右側等,影像也是取決于拍攝素材的擺放角度,例如拍攝一件衣服,如正前方,正后方、左側、右側,斜面拍攝,距離遠近等,只有在選擇的素材盡可能的多樣,訓練出來的模型也才有更好的通用性,
標注質量
? ? 資料標注和檢查是非常重要的一個環節,需要注意以下幾個方面:
- 1、不要單純追求速度而忽視質量
? ? 雖然對于資料的標注,有時間和進度要求,但要結合實際情況找到平衡點,不要單純追求速度,導致標注質量下降,導致日后大量返工
- 2、定期專人對標注素材進行審核
? ? 指定專人定期對標注的素材進行審核,可以很大避免在標注程序出現的問題,如標注質量較差,每個人對標注的理解存在差異等,
參考文章:https://www.cnblogs.com/xiaozhi_5638/p/11288118.html
本文同步在微信訂閱號上發布,如各位小伙伴們喜歡我的文章,也可以關注我的微信訂閱號:woaitest,或掃描下面的二維碼添加關注:

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/63762.html
標籤:其他
