我正在讀一本書,其中有一節介紹了內核在 CNN 中的作業原理:https : //freecontent.manning.com/deep-learning-for-image-like-data/。
在影像上滑動內核并要求整個內核完全位于影像內的每個位置,產生具有減少尺寸的激活圖。例如,如果您在所有邊上都有一個 3 x 3 的內核,則生成的激活圖中的一個像素會被敲掉;在 5 x 5 內核的情況下,甚至是兩個像素。
這里有一兩個像素被敲掉是什么意思?
uj5u.com熱心網友回復:
他們的意思是,如果沒有額外的填充,使用 3x3 內核將在輸出的每一側“松散”一個像素。因此,如果您的輸入影像是 NxN,則輸出將是 (N-2)x(N-2)。
例如,當 N=5 時,您可以看到當內核“適合”右下角時,其中心“在水平軸和垂直軸上都偏離一個像素”。
a a a a a . . . . .
a a a a a . b b b .
a a x x x ===> . b b b .
a a x X x . b b B .
a a x x x . . . . .
5 x 5 3 x 3
為了避免這個問題,使用了各種填充策略,例如用 0“包圍你的圖片”,以便保留大小
0 0 0 0 0 0 0 . . . . . . .
0 a a a a a 0 . b b b b b .
0 a a a a a 0 . b b b b b .
0 a a a a a 0 ===> . b b b b b .
0 a a a x x x . b b b b b .
0 a a a x X x . b b b b B .
0 0 0 0 x x x . . . . . . .
5 x 5 pad 5 x 5
轉載請註明出處,本文鏈接:https://www.uj5u.com/gongcheng/374941.html
下一篇:如何理解vw.format中的插槽-VowpalWabbitConditionalContextualBandit
