主頁 > 移動端開發 > Deep Neural Networks for Object Detection Thinking

Deep Neural Networks for Object Detection Thinking

2020-11-15 12:17:25 移動端開發

Deep Neural Networks for Object Detection Thinking

這篇文章純粹是以自己觀點來看這篇論文,局限于自己的知識水平和能力,肯定有多多少少的錯誤,Note會單獨寫一篇文章,一篇Note,一篇thinking

問題的提出:

? 不僅僅分類,而且要精確的定位

論文的目的:

? 通過DNN的回歸解決object detection問題,通過一個公式,用 bb mask目標的回歸問題來解決物件檢測,而且還提出了多尺度 inference程序,能將低成本,將低解析度轉為高解析度的物件檢測,

論文提出的挑戰:

論文的亮點:

deep regression 實作localization問題

解決多目標檢測的魯棒性問題

對于DNN定位器的multi-scale Refinement

論文的方法:

? 整體思路:通過DNN網路從視窗中生成一些mask,然后對這些mask進行合并,生成高質量的mask,然后利用簡單bounding box 從mask從提取檢測

1、DNN網路生成object mask,什么是 mask?

? mask是物件邊界框的 binary mask,和影像一樣的大小,檢測到物件的位置則表示1,否則0,mask可能從一部分的物件框中得到的,這是后面提出的精確定位方法所導致的,將BB分為full, left,,,,等等,然后分別形成對應的mask,

2、DNN網路的輸出是mask,輸出的大小與輸入的大小差距很大,如何轉化稱為輸入影像大小的mask形態

3、如何從mask提取檢測,這個程序是如何的?最終得到什么?

論文detail

1、通過DNN作為檢測

? 對alex的分類網路進行修改,來實作定位,改變就是將最后一層的softmax改為regression層,這一層就能生成物件二進制的mask,因為mask是由網路生成的,而網路的輸出size是固定的,故得到預測mask固定大小為 d*d=N,N是像素的總數量,再對mask大小進行調整成影像的大小,最終生成的mask可以表示多個物件,在這個mask中,1代表存在于給定類的BB中,否則為0

損失函式:
m i n Θ ∑ ( x , m ) ∈ D ∣ ∣ ( D i a g ( m ) + λ I ) 1 / 2 ( D N N ( x ; Θ ) ? m ) ∣ ∣ 2 2 min_{Θ}\sum_{(x,m)∈D}{||(Diag(m) + λI)^{1/2}(DN N(x; Θ) ? m)||_2^2} minΘ?(x,m)D?(Diag(m)+λI)1/2(DNN(x;Θ)?m)22?
m是truth mask,D是包含二進制mask表達的BB物件的訓練影像集合,

2、通過mask的精確目標檢測

2.1提出三個要解決問題:

  • 單個物件掩碼可能不足以消除相鄰物件的歧義
  • 由于輸出大小的限制,我們生成的mask比原始影像的大小小得多,
  • 由于我們使用完整的影像作為輸入,小物體將影響很少的輸入神經元,因此很難識別,

2.2 對于魯棒性定位的多個mask

? 之前對一個bb物件,得到一個mask,現在用網路,對一個bb物件得到多個mask,一般是portion :top,bottom等,
m h ( i , j ; b b ) = a r e a ( b b ( h ) ∩ T ( i , j ) ) / a r e a ( T ( i , j ) ) ( 1 ) m^h(i, j;bb) =area(bb(h) ∩ T(i, j)) / area(T(i, j)) (1) mh(i,j;bb)=area(bb(h)T(i,j))/area(T(i,j))(1)
T(i,j)表示網路預測的矩形框,bb則是真實的矩形框

2.3從DNN輸出的目標定位

? 對每個影像的bb集合進行評估,通過引入Score公式來對BB進行評分,一個對整個m,一個是對應部分的m,

? 通過這種方式,計算預測bb集合,然后再根據兩個過濾方法來刪減,1、設定score閾值來進行過濾 2、通過應用興趣類所訓練的分類器并且保留正向分類到當前檢測器的類別來進一步過濾(就是看bb內物件是不是興趣類來進行刪減),再應用NMS

3 對于DNN分類器的多尺度精煉

? 論文講述兩種方法解決網路輸出的解析度問題,1、在多個尺度和幾個大子視窗中使用DNN localizer 2、在頂部推導bb中使用DNN localizer,流程如演算法1所示,

這里要對流程提出幾個問題:

3.1、文中反復提及的多個scale是指window還是影像?分別是什么?

? 演算法中,可以看到,無論是影像還是視窗都采用了多個scale,但是不同的是,影像的scale是計算得來的,而視窗則是生成的,這里就有疑問,視窗是如何生成的?,mask是DNN網路生成的,但是視窗是如何來的呢?我提出推測,視窗應該是標簽給出的BB或者是預測后的BB,由此可以看出,scale是指不同影像,視窗是固定了的,

3.2、對演算法1流程通俗理解?

? 首先計算幾個合適的影像尺度,然后對每個不同影像尺度進行處理,生成視窗(這個有疑惑,沒講如何生成)我認為視窗應該是本來就存在的,要莫是標簽,要莫是預測后的視窗,然后對視窗進行部分選擇,分別放入網路中訓練得到mask,再將這些mask合并,對選擇框進行score計算,過濾后放入檢測集合中

3.3、對演算法2流程的理解?

? 這個流程是refinement,遍歷有演算法1得到的檢測框集合,放大BB然后得到修改后的影像,對處理后影像進行DNN處理,對計算得到最高score的BB放入refined檢測框中

?

轉載請註明出處,本文鏈接:https://www.uj5u.com/yidong/217227.html

標籤:其他

上一篇:Flutter混編-iOS集成

下一篇:實驗二

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 【從零開始擼一個App】Dagger2

    Dagger2是一個IOC框架,一般用于Android平臺,第一次接觸的朋友,一定會被搞得暈頭轉向。它延續了Java平臺Spring框架代碼碎片化,注解滿天飛的傳統。嘗試將各處代碼片段串聯起來,理清思緒,真不是件容易的事。更不用說還有各版本細微的差別。 與Spring不同的是,Spring是通過反射 ......

    uj5u.com 2020-09-10 06:57:59 more
  • Flutter Weekly Issue 66

    新聞 Flutter 季度調研結果分享 教程 Flutter+FaaS一體化任務編排的思考與設計 詳解Dart中如何通過注解生成代碼 GitHub 用對了嗎?Flutter 團隊分享如何管理大型開源專案 插件 flutter-bubble-tab-indicator A Flutter librar ......

    uj5u.com 2020-09-10 06:58:52 more
  • Proguard 常用規則

    介紹 Proguard 入口,如何查看輸出,如何使用 keep 設定入口以及使用實體,如何配置壓縮,混淆,校驗等規則。

    ......

    uj5u.com 2020-09-10 06:59:00 more
  • Android 開發技術周報 Issue#292

    新聞 Android即將獲得類AirDrop功能:可向附近設備快速分享檔案 谷歌為安卓檔案管理應用引入可安全隱藏資料的Safe Folder功能 Android TV新主界面將顯示電影、電視節目和應用推薦內容 泄露的Android檔案暗示了傳說中的谷歌Pixel 5a與折疊屏新機 谷歌發布Andro ......

    uj5u.com 2020-09-10 07:00:37 more
  • AutoFitTextureView Error inflating class

    報錯: Binary XML file line #0: Binary XML file line #0: Error inflating class xxx.AutoFitTextureView 解決: <com.example.testy2.AutoFitTextureView android: ......

    uj5u.com 2020-09-10 07:00:41 more
  • 根據Uri,Cursor沒有獲取到對應的屬性

    Android: 背景:呼叫攝像頭,拍攝視頻,指定保存的地址,但是回傳的Cursor檔案,只有名稱和大小的屬性,沒有其他諸如時長,連ID屬性都沒有 使用 cursor.getInt(cursor.getColumnIndexOrThrow(MediaStore.Video.Media.DURATIO ......

    uj5u.com 2020-09-10 07:00:44 more
  • Android連載29-持久化技術

    一、持久化技術 我們平時所使用的APP產生的資料,在記憶體中都是瞬時的,會隨著斷電、關機等丟失資料,因此android系統采用了持久化技術,用于存盤這些“瞬時”資料 持久化技術包括:檔案存盤、SharedPreference存盤以及資料庫存盤,還有更復雜的SD卡記憶體儲。 二、檔案存盤 最基本存盤方式, ......

    uj5u.com 2020-09-10 07:00:47 more
  • Android Camera2Video整合到自己專案里

    背景: Android專案里呼叫攝像頭拍攝視頻,原本使用的 MediaStore.ACTION_VIDEO_CAPTURE, 后來因專案需要,改成了camera2 1.Camera2Video 官方demo有點問題,下載后,不能直接整合到專案 問題1.多次拍攝視頻崩潰 問題2.雙擊record按鈕, ......

    uj5u.com 2020-09-10 07:00:50 more
  • Android 開發技術周報 Issue#293

    新聞 谷歌為Android TV開發者提供多種新功能 Android 11將自動填表功能整合到鍵盤輸入建議中 谷歌宣布Android Auto即將支持更多的導航和數字停車應用 谷歌Pixel 5只有XL版本 搭載驍龍765G且將比Pixel 4更便宜 [圖]Wear OS將迎來重磅更新:應用啟動時間 ......

    uj5u.com 2020-09-10 07:01:38 more
  • 海豚星空掃碼投屏 Android 接收端 SDK 集成 六步驟

    掃碼投屏,開放網路,獨占設備,不需要額外下載軟體,微信掃碼,發現設備。支持標準DLNA協議,支持倍速播放。視頻,音頻,圖片投屏。好點意思。還支持自定義基于 DLNA 擴展的操作動作。好像要收費,沒體驗。 這里簡單記錄一下集成程序。 一 跟目錄的build.gradle添加私有mevan倉庫 mave ......

    uj5u.com 2020-09-10 07:01:43 more
最新发布
  • 歡迎頁輪播影片

    如圖,引導開始,球從上落下,同時淡入文字,然后文字開始輪播,最后一頁時停止,點擊進入首頁。 在來看看效果圖。 重力球先不講,主要歡迎輪播簡單實作 首先新建一個類 TextTranslationXGuideView,用于影片展示 文本是類似的,最后會有個圖片箭頭影片,布局很簡單,就是一個 TextVi ......

    uj5u.com 2023-04-20 08:40:31 more
  • 【FAQ】關于華為推送服務因營銷訊息頻次管控導致服務通訊類訊息

    一. 問題描述 使用華為推送服務下發IM訊息時,下發訊息請求成功且code碼為80000000,但是手機總是收不到訊息; 在華為推送自助分析(Beta)平臺查看發現,訊息發送觸發了頻控。 二. 問題原因及背景 2023年1月05日起,華為推送服務對咨詢營銷類訊息做了單個設備每日推送數量上限管理,具體 ......

    uj5u.com 2023-04-20 08:40:11 more
  • 歡迎頁輪播影片

    如圖,引導開始,球從上落下,同時淡入文字,然后文字開始輪播,最后一頁時停止,點擊進入首頁。 在來看看效果圖。 重力球先不講,主要歡迎輪播簡單實作 首先新建一個類 TextTranslationXGuideView,用于影片展示 文本是類似的,最后會有個圖片箭頭影片,布局很簡單,就是一個 TextVi ......

    uj5u.com 2023-04-20 08:39:36 more
  • 【FAQ】關于華為推送服務因營銷訊息頻次管控導致服務通訊類訊息

    一. 問題描述 使用華為推送服務下發IM訊息時,下發訊息請求成功且code碼為80000000,但是手機總是收不到訊息; 在華為推送自助分析(Beta)平臺查看發現,訊息發送觸發了頻控。 二. 問題原因及背景 2023年1月05日起,華為推送服務對咨詢營銷類訊息做了單個設備每日推送數量上限管理,具體 ......

    uj5u.com 2023-04-20 08:39:13 more
  • iOS從UI記憶體地址到讀取成員變數(oc/swift)

    開發除錯時,我們發現bug時常首先是從UI顯示發現例外,下一步才會去定位UI相關連的資料的。XCode有給我們提供一系列debug工具,但是很多人可能還沒有形成一套穩定的除錯流程,因此本文嘗試解決這個問題,順便提出一個暴論:UI顯示例外問題只需要兩個步驟就能完成定位作業的80%: 定位例外 UI 組 ......

    uj5u.com 2023-04-19 09:16:23 more
  • FIDE重磅更新!性能飛躍!體驗有禮!

    FIDE 開發者工具重構升級啦!實作500%性能提升,誠邀體驗! 一直以來不少開發者朋友在社區反饋,在使用 FIDE 工具的程序中,時常會遇到諸如加載不及時、代碼預覽/渲染性能不如意的情況,十分影響開發體驗。 作為技術團隊,我們深知一件趁手的開發工具對開發者的重要性,因此,在2023年開年,FinC ......

    uj5u.com 2023-04-19 09:16:15 more
  • 游戲內嵌社區服務開放,助力開發者提升玩家互動與留存

    華為 HMS Core 游戲內嵌社區服務提供快速訪問華為游戲中心論壇能力,支持玩家直接在游戲內瀏覽帖子和交流互動,助力開發者擴展內容生產和觸達的場景。 一、為什么要游戲內嵌社區? 二、游戲內嵌社區的典型使用場景 1、游戲內打開論壇 您可以在游戲內繪制論壇入口,為玩家提供沉浸式發帖、瀏覽、點贊、回帖、 ......

    uj5u.com 2023-04-19 09:15:46 more
  • iOS從UI記憶體地址到讀取成員變數(oc/swift)

    開發除錯時,我們發現bug時常首先是從UI顯示發現例外,下一步才會去定位UI相關連的資料的。XCode有給我們提供一系列debug工具,但是很多人可能還沒有形成一套穩定的除錯流程,因此本文嘗試解決這個問題,順便提出一個暴論:UI顯示例外問題只需要兩個步驟就能完成定位作業的80%: 定位例外 UI 組 ......

    uj5u.com 2023-04-19 09:14:53 more
  • FIDE重磅更新!性能飛躍!體驗有禮!

    FIDE 開發者工具重構升級啦!實作500%性能提升,誠邀體驗! 一直以來不少開發者朋友在社區反饋,在使用 FIDE 工具的程序中,時常會遇到諸如加載不及時、代碼預覽/渲染性能不如意的情況,十分影響開發體驗。 作為技術團隊,我們深知一件趁手的開發工具對開發者的重要性,因此,在2023年開年,FinC ......

    uj5u.com 2023-04-19 09:14:08 more
  • 游戲內嵌社區服務開放,助力開發者提升玩家互動與留存

    華為 HMS Core 游戲內嵌社區服務提供快速訪問華為游戲中心論壇能力,支持玩家直接在游戲內瀏覽帖子和交流互動,助力開發者擴展內容生產和觸達的場景。 一、為什么要游戲內嵌社區? 二、游戲內嵌社區的典型使用場景 1、游戲內打開論壇 您可以在游戲內繪制論壇入口,為玩家提供沉浸式發帖、瀏覽、點贊、回帖、 ......

    uj5u.com 2023-04-19 09:08:34 more