主頁 >  其他 > BN-Batch Normalization 演算法的學習

BN-Batch Normalization 演算法的學習

2022-02-28 07:23:25 其他

參考博客
大神鏈接:
1、https://blog.csdn.net/weixin_44791964?type=blog
2、https://www.jianshu.com/p/b05282e9ca57

文章目錄

    • 背景
    • 前景知識
    • BN演算法原理
    • BN演算法的優點
    • BN的代碼實作

學習神經網路的時候,發現了很多的演算法在輸入層之前加上了Batch Normalization 演算法,記錄一下自己的學習,

背景

Batch Normalization論文是2015年深度學習領域,超級火的一篇論文,論文的全稱為《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》

論文的原文鏈接如下:
鏈接一 https://arxiv.org/abs/1502.03167v3
鏈接二 http://proceedings.mlr.press/v37/ioffe15.pdf

在BN演算法出現之前,當前深度學習網路雖然發展迅速,但也面臨著引數過多,類似于學習率、引數初始化、權重衰減系數、Drop out比例等,都是需要人為的去選擇引數,經常需要大量的時間進行調參,BN演算法幫助人們加速這一程序,使得在各類超參的選擇上不需要那么多精力,

前景知識

為了減少資料值的大小,還要保留資料的分布特性,減少網路對不同批次資料分布型別的依賴,我們一般情況下們都會對資料進行歸一化操作,歸一化操作成了我們把資料送入神經網路的標準操作,

雖然我們在將資料送入神經網路之前進行了歸一化操作,但是后續神經節點,卻沒有歸一化,雖然我們有各類激活函式使得網路呈現非線性,防止網路節點輸出過大,但深度網路的訓練是一個復雜的程序,只要網路的前面幾層發生微小的改變,那么后面幾層就會被累積放大下去,一旦網路某一層的輸入資料的分布發生改變,那么這一層網路就需要去適應學習這個新的資料分布,所以如果訓練程序中,訓練資料的分布一直在發生變化,那么將會影響網路的訓練速度,

也就是因為神經網路中間層之間沒有進行資料的歸一化,所以每次的資料分布在訓練程序中都不一樣,會很大的影響下一層的輸出的資料分布,直接會影響到引數的訓練程序,我們把網路中間層在訓練程序中,資料分布的改變稱之為:“Internal Covariate Shift”,對Google提出的“Internal Covariate Shift”的理解可以參考這個,

那么什么方法可以解決這個問題呢?

就是對中間層也進行資料歸一化操作,使得中間層輸出的資料分布較為穩定,說起來好像是挺容易的,不就是歸一化操作嘛,容易,但是實作起來卻沒有那么容易,細看在此文章之前的文章,卻沒有人實作過,原因為:如果漸漸單單對中間層的資料使用已有的歸一化方法,會強制的改變資料的分布結構,有一種強行將資料全部扭到一種分布模式的感覺,
比如強行變成均值為零、標準差為1的分布,這樣的話,會影響到下一層網路可以學習到的東西,無論上一層網路給啥,歸一化之后都一樣,下一層還學啥,直接擺爛了,

所以我們需要一種演算法,能夠對中間層資料進行歸一化,且最大程度上保留資料的分布特征,我們的厲害的BN演算法橫空出世(BN演算法NB),

BN演算法原理

將BN演算法之前,我們還需要了解一種歸一化演算法–白化演算法,這個演算法在論文中也有提及到,
白化演算法:
白化的目的是去除輸入資料的冗余資訊,假設訓練資料是影像,由于影像中相鄰像素之間具有很強的相關性,所以用于訓練時輸入是冗余的;白化的目的就是降低輸入的冗余性,
輸入資料集X,經過白化處理后,新的資料X’滿足兩個性質:
(1)特征之間相關性較低;相當于PCA程序,
(2)所有特征具有相同的方差,
具體公式:
公 式 一 : C o v [ x ] = E x ∈ X [ x x T ] ? E [ x ] E [ x ] T 公式一:Cov[x] = E_{x∈X} [xx^T] ? E[x]E[x]^T Cov[x]=ExX?[xxT]?E[x]E[x]T
公 式 二 : C o v [ x ] ? 1 / 2 ( x ? E [ x ] ) 公式二:Cov[x]?1/2(x ? E[x]) Cov[x]?1/2(x?E[x])
從公式可以看出來,它需要公式一計算協方差矩陣Cov[x],以及產生白花激活的公式二,以及這些變換的導數用于反向傳播,要進行完上述的所有程序,我們需要計算的資料量十分的大,這促使我們尋求一種替代方法,以一種可微分的方式執行輸入規范化,并且不需要在每次引數更新后分析整個訓練集,

論文作者為了減少計算量和方便后向計算僅僅使用了下面的公式進行預處理,也就是近似白化預處理:
公 式 三 : x ^ ( k ) = x ( k ) ? E [ x ( k ) ] V a r [ x ( k ) ] 公式三:\widehat{x}{^{(k)}} =\frac{x(k) ? E[x^{(k)}]}{\sqrt{Var[x^{(k)}]}} x (k)=Var[x(k)] ?x(k)?E[x(k)]?
訓練程序中采用batch 隨機梯度下降,上面的 E [ x ( k ) ] E[x^{(k)}] E[x(k)]指的是每一批訓練資料神經元 x ( k ) x^{(k)} x(k)的平均值;然后分母就是每一批資料神經元 x ( k ) x^{(k)} x(k)激活度的一個標準差了,

但是直接這樣做的話也會強制的使得資料的分布特征為同一型別,作者為了解決這樣的問題,提出了一種開創性的想法,如下:
公 式 四 : y ( k ) = γ ( k ) x ^ ( k ) + β ( k ) 公式四:y^{(k)} = γ^{(k)}\widehat{x}^{(k)} + β^{(k)} y(k)=γ(k)x (k)+β(k)
其中 γ ( k ) = V a r [ x ( k ) ] γ^{(k)} =\sqrt{Var[x^{(k)}]} γ(k)=Var[x(k)] ? β ( k ) = E [ x ( k ) ] β^{(k)} =E[x^{(k)}] β(k)=E[x(k)]
每一個神經元 x ( k ) x^{(k)} x(k)都會有一對這樣的引數 γ ( k ) γ^{(k)} γ(k) β ( k ) β^{(k)} β(k),這樣做的目的是讓歸一化之后的資料特性的分布特性由資料自己來決定,是可以恢復出原始的某一層所學到的特征的,

這樣就完美的解決了怎么對資料進行歸一化,以及最大程度不改變資料分布特性的兩個問題,
論文中給出了演算法的具體計算流程如下:
在這里插入圖片描述
即主要分為了四個步驟,也就是我們在上面所提到的那些步驟:
從步驟中可以得知,為小批量的訓練方法,
1、計算每一批次的輸入資料的平均值,
2、利用步驟一所求得的平均值進行輸入資料方差的求取,
3、步驟三中所用的公式和我們上述公式三不一樣的地方是加上了 ? \epsilon ? ? \epsilon ?是一個極小值,是為了防止方差為零、或者無線接近于零的情況發生,使得結果無限大的情況發生,
4、利用公式四進行消除歸一化所帶來的標準化的影響,也可以說是反標準化的一步,

至此,基本的BN的演算法就這么多,但是我們上述的 x ( k ) x^{(k)} x(k)是針對于每一批的小樣本來說,我們訓練完了我們的模型之后,輸入很有可能的是單個樣本,那個時候我們該如何計算平均值和方差呢?

論文中的方法為:
在訓練結束后,引數都是固定化的,BN的引數也是固定化了,一旦固定化,就要有一個確切的值,論文中的最終BN階段的平均值和方差來自于所有訓練樣本的平均值和方差,也就是所有小批次的平均值和方差,
具體公式如下:
對于均值來說直接計算所有batch的平均值:
平 均 值 : E [ x ] ← E B [ μ B ] 平均值:E[x] ← E_B[μ_B] E[x]EB?[μB?]
對于標準偏差采用每個batch的無偏估計:
方 差 : V a r [ x ] ← m m ? 1 E B [ σ B 2 方差:Var[x] ← \frac{m}{m?1}E_B[σ^2_B Var[x]m?1m?EB?[σB2?
最后測驗階段,BN的使用公式就是:
y = γ V a r [ x ] + ? x + ( β ? γ E [ x ] V a r [ x ] + ? ) y = \frac{γ}{\sqrt{Var[x]+\epsilon}}x +(β-\frac{γE[x]}{\sqrt{Var[x]+\epsilon}}) y=Var[x]+? ?γ?x+(β?Var[x]+? ?γE[x]?)
以上就是BN演算法的大致思想和步驟,具體內容,可以深入閱讀一下文章,

BN演算法的優點

1、Batch Normalization 對每層資料規范化后,可以使用更高的學習率(因為不加以規范之前,每層的資料的分布特性復雜,采用較高學習率容易不收斂),所以網路訓練時可以設定較高的初始學習率,加快收斂,
2、你再也不用去理會過擬合中drop out、L2正則項引數的選擇問題,采用BN演算法后,可以選擇更小的L2正則約束引數了,因為BN具有提高網路泛化能力的特性;也不需要使用使用區域回應歸一化層了,因為BN本身就是一個歸一化網路層;
3、防止過擬合,在網路的訓練中,Bn使得一個minibatch中所有樣本都被關聯在了一起,因此網路不會從某一個訓練樣本中生成確定的結果,這樣就會使得整個網路不會朝這一個方向使勁學習,一定程度上避免了過擬合,
4、防止梯度爆炸和梯度消失,因為規范化之后,資料較為標準,在各個點的梯度都不會過大或者過于小,

BN的代碼實作

代碼可以參考這里 和 這里
代碼為Pytorch實作的,和上面公式很貼切

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/433375.html

標籤:AI

上一篇:【論文筆記】道路檢測 SNE-RoadSeg

下一篇:【數字信號處理】線性常系數差分方程 ( 卷積 與 “ 線性常系數差分方程 “ | 使用 matlab 求解 “ 線性常系數差分方程 “ )

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 2023年最新微信小程式抓包教程

    01 開門見山 隔一個月發一篇文章,不過分。 首先回顧一下《微信系結手機號資料庫被脫庫事件》,我也是第一時間得知了這個訊息,然后跟蹤了整件事情的經過。下面是這起事件的相關截圖以及近日流出的一萬條資料樣本: 個人認為這件事也沒什么,還不如關注一下之前45億快遞資料查詢渠道疑似在近日復活的訊息。 訊息是 ......

    uj5u.com 2023-04-20 08:48:24 more
  • web3 產品介紹:metamask 錢包 使用最多的瀏覽器插件錢包

    Metamask錢包是一種基于區塊鏈技術的數字貨幣錢包,它允許用戶在安全、便捷的環境下管理自己的加密資產。Metamask錢包是以太坊生態系統中最流行的錢包之一,它具有易于使用、安全性高和功能強大等優點。 本文將詳細介紹Metamask錢包的功能和使用方法。 一、 Metamask錢包的功能 數字資 ......

    uj5u.com 2023-04-20 08:47:46 more
  • vulnhub_Earth

    前言 靶機地址->>>vulnhub_Earth 攻擊機ip:192.168.20.121 靶機ip:192.168.20.122 參考文章 https://www.cnblogs.com/Jing-X/archive/2022/04/03/16097695.html https://www.cnb ......

    uj5u.com 2023-04-20 07:46:20 more
  • 從4k到42k,軟體測驗工程師的漲薪史,給我看哭了

    清明節一過,盲猜大家已經無心上班,在數著日子準備過五一,但一想到銀行卡里的余額……瞬間心情就不美麗了。最近,2023年高校畢業生就業調查顯示,本科畢業月平均起薪為5825元。調查一出,便有很多同學表示自己又被平均了。看著這一資料,不免讓人想到前不久中國青年報的一項調查:近六成大學生認為畢業10年內會 ......

    uj5u.com 2023-04-20 07:44:00 more
  • 最新版本 Stable Diffusion 開源 AI 繪畫工具之中文自動提詞篇

    🎈 標簽生成器 由于輸入正向提示詞 prompt 和反向提示詞 negative prompt 都是使用英文,所以對學習母語的我們非常不友好 使用網址:https://tinygeeker.github.io/p/ai-prompt-generator 這個網址是為了讓大家在使用 AI 繪畫的時候 ......

    uj5u.com 2023-04-20 07:43:36 more
  • 漫談前端自動化測驗演進之路及測驗工具分析

    隨著前端技術的不斷發展和應用程式的日益復雜,前端自動化測驗也在不斷演進。隨著 Web 應用程式變得越來越復雜,自動化測驗的需求也越來越高。如今,自動化測驗已經成為 Web 應用程式開發程序中不可或缺的一部分,它們可以幫助開發人員更快地發現和修復錯誤,提高應用程式的性能和可靠性。 ......

    uj5u.com 2023-04-20 07:43:16 more
  • CANN開發實踐:4個DVPP記憶體問題的典型案例解讀

    摘要:由于DVPP媒體資料處理功能對存放輸入、輸出資料的記憶體有更高的要求(例如,記憶體首地址128位元組對齊),因此需呼叫專用的記憶體申請介面,那么本期就分享幾個關于DVPP記憶體問題的典型案例,并給出原因分析及解決方法。 本文分享自華為云社區《FAQ_DVPP記憶體問題案例》,作者:昇騰CANN。 DVPP ......

    uj5u.com 2023-04-20 07:43:03 more
  • msf學習

    msf學習 以kali自帶的msf為例 一、msf核心模塊與功能 msf模塊都放在/usr/share/metasploit-framework/modules目錄下 1、auxiliary 輔助模塊,輔助滲透(埠掃描、登錄密碼爆破、漏洞驗證等) 2、encoders 編碼器模塊,主要包含各種編碼 ......

    uj5u.com 2023-04-20 07:42:59 more
  • Halcon軟體安裝與界面簡介

    1. 下載Halcon17版本到到本地 2. 雙擊安裝包后 3. 步驟如下 1.2 Halcon軟體安裝 界面分為四大塊 1. Halcon的五個助手 1) 影像采集助手:與相機連接,設定相機引數,采集影像 2) 標定助手:九點標定或是其它的標定,生成標定檔案及內參外參,可以將像素單位轉換為長度單位 ......

    uj5u.com 2023-04-20 07:42:17 more
  • 在MacOS下使用Unity3D開發游戲

    第一次發博客,先發一下我的游戲開發環境吧。 去年2月份買了一臺MacBookPro2021 M1pro(以下簡稱mbp),這一年來一直在用mbp開發游戲。我大致分享一下我的開發工具以及使用體驗。 1、Unity 官網鏈接: https://unity.cn/releases 我一般使用的Apple ......

    uj5u.com 2023-04-20 07:40:19 more