主頁 >  其他 > [ML&DL] 深度學習的實踐層面

[ML&DL] 深度學習的實踐層面

2023-04-29 07:12:30 其他

深度學習的實踐層面

訓練集 驗證集 測驗集

image-20230317213207097

程序

神經網路的訓練是一個需要不斷迭代的程序,一般先提出idea,然后編碼實作、測驗,根據測驗結果再次調整思路......

分組與比例

資料集通常分為3個部分:訓練集、驗證集和測驗集

  1. 訓練集用于訓練模型的引數,
  2. 驗證集用于選擇最好的模型,
  3. 測驗集用于評估訓練結果,

一般講資料集按照60%訓練,20%驗證和20%測驗集來劃分,

當資料集的大小達到一百萬時,則比例可以調整為98%+1%+1%,因為驗證集和測驗集實際上不需要太多,

如果超過百萬級別,甚至可以調整為99.5%+0.25%+0.25%.

分布

訓練集、驗證集和測驗集應當保證分布一致

防止出現這種情況:在分辨貓圖片的模型訓練中,如果訓練集都是貓的圖片,本來訓練得很好,但是測驗集都是狗的圖片,結果得到了很差的評估,


偏差 方差

image-20230317214229080

  • 高偏差:欠擬合
  • 高方差:過擬合

如果出現高偏差問題,一般無法通過增加資料量解決問題,如果出現高方差問題,可以嘗試使用正則化,


正則化

一般使用正則化來防止出現過擬合現象,

使用正則化會引入超引數\(\lambda\)

可以只正則化引數\(W\),因為偏置項\(b\)只是單個數字,正則化的意義不大,

L2正則化

正則項為:

\[\frac{\lambda}{2m}\parallel w \parallel_2^2=\frac{\lambda}{2m}\sum\limits_{j=1}^{n_x}w_j^2 \]

其中\(\parallel w\parallel_2\)\(w\)L2范數,也叫歐幾里得范數,

L1正則化

使用的是L1范數,會使得模型變得稀疏(部分引數變為0),

L2正則化是較為常用的,

正則化如何生效?

誤差函式\(J\)中加入了正則項,而\(J\)的值又會影響引數的更新,

如果\(\lambda\)太大了,就會導致\(W\)幾乎為0,使得模型變得簡單,甚至可能欠擬合,

如果\(\lambda\)太小,對\(W\)的修正效果不大,如果原先模型就有過擬合現象,則不能很好的解決問題,

dropout正則化

隨機失活,到達某一層的時候,會先遍歷該層結點,以一定的概率(超引數)決定是否將其失活,

通過隨機失活可以避免一些\(W\)變得太大,導致過擬合,

使用dropout正則化之前,\(a\)的原本值假設是100,使用dropout正則化之后,如果存活概率設定為80%,那么\(a\)的值可能變為80,為了保持數值,應該計算a=a/0.8

實施dropout正則化的相關知識:

  • 每層的存活率可以設定不同值,做出相應調整,但是會引入較多超引數,
  • 通常存活率不能設定太低,最好接近1,甚至大多數時候是不需要失活的,某些層直接設定為1,

其它正則化方法

  1. 資料擴增

    如果資料集是影像,可以考慮通過旋轉,翻轉等操作來擴增資料集,

  2. early stopping

    有時候迭代次數太多反而得到較差的結果,提前結束訓練可以得到較好結果,

    image-20230317230754686

歸一化

可以使資料分布得更”均勻“

思路和標準化正態分布是一致的:

  1. 求均值,
  2. 求方差,
  3. \(X:=\frac{X-\mu}{\sigma^2}\)

歸一化可以提高訓練速度,


梯度爆炸和梯度消失

這個問題通常發生在層數較多的神經網路,

梯度爆炸:如果每個權重\(W\)都大于1,那么不斷地乘上\(W\),到最后輸出值會變得非常大,

? 這種情況下,可能導致\(W\)的值越來越大,最后甚至溢位為NaN.

梯度消失:如果每個權重\(W\)都小于1,那么不斷地乘上\(W\),到最后輸出值會變得非常小,

? 這種情況下,可能因為梯度太小,導致梯度下降速度緩慢,


權重初始化

合理的權重初始化可以緩解梯度爆炸和梯度消失帶來的痛點,

image-20230318102033668

對于上圖這種簡單案例,有:

\[z = \sum\limits_{i=1}^nw_ix_i \]

可以考慮將權重初始化為:

\[w_i=\frac{1}{n} \]

其它激活函式

  • 如果使用的是Relu,則建議\(w_i=\frac{2}{n}\)

  • 如果使用的是\(\tanh\),則建議\(w_i=\sqrt{\frac{1}{n}}\)


梯度的數值逼近

聯系導數與導數的近似值即可:

  • \(f'(x)=\lim\limits_{\epsilon\to0}\frac{f(x+\epsilon)-f(x-\epsilon)}{2\epsilon}\)

  • \(f'(x)\approx\frac{f(x+\epsilon)-f(x-\epsilon)}{2\epsilon}\)


梯度檢驗

  • \(W\)\(b\)都扁平化組合起來,形成一個向量\(\theta\)
  • \(dW\)\(db\)都扁平化組合起來,形成一個向量\(d\theta\)

則誤差函式\(J(W,b)\)可以記為\(J(\theta)\).

對于向量\(\theta\)的每一項\(\theta_i\),我們可以計算其近似值:

\[d\theta_{approx}[i]=\frac{J(\theta_1,\theta_2,\cdots,\theta_i+\epsilon,\cdots)-J(\theta_1,\theta_2,\cdots,\theta_i-\epsilon,\cdots)}{2\epsilon} \]

這個近似值應該接近它的真實值:\(d\theta[i]\)

評估指標

\[\frac{\parallel d\theta_{approx}-d\theta\parallel_2}{ \parallel d\theta_{approx}\parallel_2 +\parallel d\theta\parallel_2 } \]

分子部分:歐幾里得范數,計算兩個向量”終點“之間的”距離“,

分母部分:防止分子數值相差過大,分母將這個指標變成一種”比率“,

參考數值

  • 如果指標的數量級為\(10^{-7}\),則是好的結果,
  • 如果指標的數量級為\(10^{-5}\),中規中矩,可能有問題,
  • 如果指標的數量級為\(10^{-3}\),則是壞的結果,需要調整,

注意事項

  1. 不要在訓練中使用梯度檢驗,只用于除錯,
  2. 如果演算法的梯度檢驗失敗,要檢查所有項,檢查每一項,并試著找出 bug,
  3. 梯度檢驗不能與dropout同時使用,因為每次迭代程序中,dropout會隨機消除隱藏層單元的不同子集,難以計算dropout在梯度下降上的代價函式\(J\)

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/551468.html

標籤:其他

上一篇:[筆記] ELMO, BERT, GPT 簡單講解 - 李宏毅

下一篇:返回列表

標籤雲
其他(158295) Python(38108) JavaScript(25398) Java(18011) C(15221) 區塊鏈(8260) C#(7972) AI(7469) 爪哇(7425) MySQL(7152) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5870) 数组(5741) R(5409) Linux(5334) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4565) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2432) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1964) Web開發(1951) HtmlCss(1928) python-3.x(1918) 弹簧靴(1913) C++(1912) xml(1889) PostgreSQL(1874) .NETCore(1857) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • [ML&DL] 深度學習的實踐層面

    深度學習的實踐層面 訓練集 驗證集 測驗集 程序 神經網路的訓練是一個需要不斷迭代的程序,一般先提出idea,然后編碼實作、測驗,根據測驗結果再次調整思路...... 分組與比例 資料集通常分為3個部分:訓練集、驗證集和測驗集。 訓練集用于訓練模型的引數。 驗證集用于選擇最好的模型。 測驗集用于評估 ......

    uj5u.com 2023-04-29 07:12:30 more
  • [筆記] ELMO, BERT, GPT 簡單講解 - 李宏毅

    國內視頻地址:https://www.bilibili.com/video/BV17441137fa/?spm_id_from=333.880.my_history.page.click&vd_source=bda72e785d42f592b8a2dc6c2aad2409 1 NLP 基礎 1.1 ......

    uj5u.com 2023-04-29 07:11:33 more
  • 閱讀文獻《DCRNet:Dilated Convolution based CSI Feedback Compr

    這篇文章的作者是廣州大學的范立生老師和他的學生湯舜璞,于2022年10月發表在 IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY。 文獻提出了一種基于**空洞卷積(Dilated Convolution)**的CSI反饋網路,即空洞信道重建網路(Dilated Ch ......

    uj5u.com 2023-04-29 07:11:07 more
  • KubeSphere 社區雙周報 | 杭州站 Meetup 議題征集中 | 2023.04.1

    KubeSphere 社區雙周報主要整理展示新增的貢獻者名單和證書、新增的講師證書以及兩周內提交過 commit 的貢獻者,并對近期重要的 PR 進行決議,同時還包含了線上/線下活動和布道推廣等一系列社區動態。 本次雙周報涵蓋時間為:2023.04.14-2023.04.27。 貢獻者名單 新晉 K ......

    uj5u.com 2023-04-29 07:10:36 more
  • 全球首個開發者村啟動開村,產業聚力松山湖,共創大灣區創新高地

    摘要:由東莞松山湖管委會、東莞市工業和資訊化局與華為云共同主辦的松山湖開發者生態創新峰會暨華為開發者大賽中國區啟動儀式舉行。 打造一流創新生態,與全球開發者共贏。4月26日,由東莞松山湖管委會、東莞市工業和資訊化局與華為云共同主辦的松山湖開發者生態創新峰會暨華為開發者大賽中國區啟動儀式舉行,全國開發 ......

    uj5u.com 2023-04-29 07:05:06 more
  • 題目 3158: 藍橋杯2023年第十四屆省賽真題-三國游戲(貪心)

    題目描述 小藍正在玩一款游戲。游戲中魏蜀吳三個國家各自擁有一定數量的士兵X, Y, Z (一開始可以認為都為 0 )。游戲有 n 個可能會發生的事件,每個事件之間相互獨立且最多只會發生一次,當第 i 個事件發生時會分別讓 X, Y, Z 增加Ai , Bi ,Ci 。 當游戲結束時 (所有事件的發生 ......

    uj5u.com 2023-04-29 07:03:55 more
  • 2023面試自動化測驗面試題【含答案】,建議收藏

    1、你做了幾年的測驗、自動化測驗,說一下 selenium 的原理是什么?
    我做了五年的測驗,1年的自動化測驗;
    selenium 它是用 http 協議來連接 webdriver ,客戶端可以使用 Java 或者 Python 各種編程語言來實作;
    2、什么專案適合做自動化測驗? ......

    uj5u.com 2023-04-28 16:50:53 more
  • 從不均勻性角度淺析AB實驗

    本篇的目的是從三個不均勻性的角度,對AB實驗進行一個認知的普及,最終著重講述AB實驗的一個普遍的問題,即實驗準確度問題。 ......

    uj5u.com 2023-04-28 16:47:49 more
  • [ML&DL] 分類問題

    分類問題 分類問題和回歸問題的區別是:分類問題的值域是離散的。 線性回歸不能應用于分類問題。 邏輯回歸模型 (此處為一元分類問題) 預測函式: $$ h_\theta(x)=g(\theta^Tx) $$ 其中: $$ g(z) = \frac{1}{1+e^{-z}} $$ 能夠使得: $$ 0\ ......

    uj5u.com 2023-04-28 16:46:51 more
  • ChatGPT在工業領域的研究與應用探索-資料與工況認知

    我們能夠得出來的結論:(1)ChatGPT能夠記憶資料資訊、關聯資料資訊與工況的關系、出現工況給出處理措施,本質資料資訊也是文字的一種形式;(2)ChatGPT能夠找出來降輸入認知資訊以外的非正常資料資訊;(3)在廣域網范圍內能夠給出來處理措施,這個處理措施是有誤的。 ......

    uj5u.com 2023-04-28 16:45:17 more