一、概念

神經網路是已知自變數x和真實結果y，
神經網路的架構可以看做是黑箱測驗，但你不知道黑箱指代的F(x)到底是什么，不過沒關系，我們知道其中的引數（是隨機初始化的），即神經元之間做連接的那些個邊指代的權值，一個神經網路的引數是非常龐大的，自變數一般是非常多個，以至于引數也是有很多，且神經網路一般會有很多個隱藏層，所以一個神經網路是一個多元復合函式，

我們向黑箱中輸入你的自變數x后得到一個預測值y拔，和真實值y做對比，怎么比呢？答：通過損失函式G(y拔，y)，
我們假設一個比較簡單的損失函式如下：
在這里插入圖片描述
可見，我們希望的是預測值y拔與y相差不大，所以整個架構的優化目標是讓G(y拔，y)達到最小值，

二、人話版

我們以最簡單的一元函式舉例，

由于黑箱指代的F(x)是隨機初始化的，即F(x)的引數wi，bi是隨機初始化的，
因為我們這里假設神經網路是最簡單的一元函式y = wx + b，所以有一個引數w和b，

假設w和b被分別隨機初始化成5和1，即目前黑箱指代的F(x)=5x +1，
假設我們現在有自變數x = 2，真實值y =14，
把x = 2傳入黑箱F(x)得到一個預測值y拔 = 5*2+1 = 11，
呼叫上面的損失函式G，得到一個損失loss = (11-14)2 = 9，

我們有x和y，優化w，所以神經網路指代的函式可看是F(w)=w*2 +b，
因為x=2是已知的，引數w是變化的，

這里引入梯度的帶概念，一個引數梯度是函式對這個引數的導數，

在這里插入圖片描述
由此鏈式求導可以求得損失函式G對w的導數是(22-28)x2= -12
所以w的梯度r = -12.