之前我們討論過DQN演算法：深度強化學習-DQN演算法原理與代碼、Double DQN演算法：深度強化學習-Doubel DQN演算法原理與代碼、Dueling DQN演算法：深度強化學習-Dueling DQN演算法原理與代碼以及D3QN演算法：深度強化學習-D3QN演算法原理與代碼，這些演算法在求解最優策略的程序中試圖估計最優價值函式，所以這些演算法都被稱為最優價值演算法(optimal value algorithm)，

但是求解最優策略梯度不一定要估計最優價值函式，策略梯度演算法(policy gradient algorithm)試圖用含參函式近似最優策略，并通過迭代更新引數值，本文采用兩種方法推導策略梯度演算法，法一的推導程序比較簡單，可以直觀了解策略梯度演算法的原理，但是不太嚴謹，具體可以參考李宏毅老師講解PG演算法的視頻：Policy Gradient，法二的推導程序稍微復雜一點，但是推導程序嚴謹，Reinforce演算法就是法二推導結果的直觀體現，

1 策略梯度演算法推導

強化學習的目標在于最大化累積期望回報，策略梯度演算法給出了期望回報和策略梯度之間的關系，采用函式近似法估計最優策略 $\pi _{\ast }(a\mid s)$ 的基本思想是用含參函式 $\pi _{\theta }(a\mid s)$ 來近似最優策略，

1.1 方法一

假設智能體與環境互動一次的經驗軌跡為 $\tau$ ，T為終止時刻，即

$\tau=s_{0},a_{0},r_{1},s_{1},\cdots ,a_{T-1},r_{T},s_{T}$

本次互動的累積回報為

$R(\tau )=r_{1}+r_{2}+\cdots +r_{T-1}+r_{T}=\sum_{t=1}^{T}r_{t}$

本次經驗軌跡出現的概率為

$P_{\theta }(\tau )=p(s_{0})\cdot \pi _{\theta }(a_{0}\mid s_{0})\cdot p(s_{1}\mid s_{0},a_{0})\cdot \pi _{\theta }(a_{1}\mid s_{1})\cdots \pi _{\theta }(a_{T-1}\mid s_{T-1})\cdot p(s_{T}\mid s_{T-1},a_{T-1}) =p(s_{0})\prod_{i=0}^{T-1}\pi _{\theta }(a_{i}\mid s_{i})\cdot p(s_{i+1}\mid s_{i},a_{i})$

其中， $p(s_{0})$ 和 $p(s{}'\mid s,a)$ 由環境決定，與 $\theta$ 無關，

真實的累積回報為采樣得到累積回報的期望，即累積期望回報為

$\bar{R_{\theta }}=E_{\tau \sim P_{\theta }(\tau )}\left [ R_{\tau } \right ]=\sum_{\tau }^{}R(\tau )P_{\theta }(\tau )$

對 $\bar{R_{\theta }}$ 關于 $\theta$ 求梯度，得到

$\triangledown \bar{R_{\theta }}=\sum_{\tau }^{}R(\tau )\triangledown P_{\theta }(\tau )=\sum_{\tau }^{}R(\tau )P _{\theta }(\tau )\frac{\triangledown P _{\theta (\tau )}}{P _{\theta (\tau )}}$

注意：式中的 $R(\tau)$ 其實與引數 $\theta$ 有關，但是推導時假定無關，沒有算入梯度，因此不太嚴謹，不過并不影響對策略梯度演算法的理解，嚴謹的推導見方法二，

由于

$\triangledown lny=\frac{\triangledown y}{y}$

$\triangledown y=y\cdot \triangledown lny$

那么

$\triangledown \bar{R_{\theta }}=\sum_{\tau }^{}R(\tau )P_{\theta }(\tau )\triangledown lnP_{\theta }(\tau )=E_{\tau \sim P_{\theta }(\tau )}\left [ R(\tau )\triangledown lnP_{\theta }(\tau ) \right ]$

上面求和符號可以通過采樣消除，即N次采樣后，得到

$\triangledown \bar{R_{\theta }}=\frac{1}{N}\sum_{n=1}^{N}R(\tau ^{n})\triangledown lnP_{\theta }(\tau ^{n})$

對 $P_{\theta }(\tau )$ 求對數，得到

$lnP_{\theta }(\tau )=lnp(s_{0})+ln\pi _{\theta }(a_{0}\mid s_{0})+lnp(s_{1}\mid s_{0},a_{0})+ln\pi _{\theta }(a_{1}\mid s_{1})+\cdots +ln\pi_{\theta }(a_{T-1}\mid s_{T-1})+lnp(s_{T}\mid s_{T-1},a_{T-1})=lnp(s_{0})+\sum_{t=0}^{T-1}\left [ ln\pi_{\theta }(a_{t}\mid s_{t})+lnp(s_{t+1}\mid s_{t},a_{t}) \right ]$

對 $lnP_{\theta }(\tau )$ 關于 $\theta$ 求梯度，由于 $p(s{}'\mid s,a)$ 與 $\theta$ 無關，因此全部被消掉，得到

$\triangledown lnP_{\theta }(\tau )=\sum_{t=0}^{T-1}\triangledown ln\pi _{\theta }(a_{t}\mid s_{t})$

將 $\triangledown lnP_{\theta }(\tau )$ 代入 $\triangledown \bar{R_{\theta }}$ ，得到

策略梯度：

$\triangledown \bar{R_{\theta }}=\frac{1}{N}\sum_{n=1}^{N}R(\tau ^{n})\sum_{t=0}^{T}\triangledown ln\pi _{\theta }(a_{t}^{n}\mid s_{t}^{n})=\frac{1}{N}\sum_{n=1}^{N}\sum_{t=0}^{T}R(\tau ^{n})\triangledown ln\pi _{\theta }(a_{t}^{n}\mid s_{t}^{n})$

至此，我們完成了策略梯度演算法的推導，沿著 $\triangledown \bar{R_{\theta }}$ 的方向改變策略引數 $\theta$ ，就有機會增加累積期望回報，不過，策略梯度公式中有一個需要注意的地方， $R(\tau ^{n})$ 表示的是整條軌跡的累積回報，并非即時回報，

1.2 方法二

策略 $\pi _{\theta }(a\mid s)$ 滿足Bellman期望方程

Bellman期望方程：

$v_{\pi_{\theta } }(s)=\sum_{a}^{}\pi _{\theta }(a\mid s)q_{\pi_{\theta } }(s,a)$

$q_{\pi_{\theta } }(s,a)=r(s,a)+\gamma \sum_{s{}'}^{}p(s{}'\mid s,a)v_{\pi_{\theta } }(s{}')$

對以上兩式關于 $\theta$ 求梯度，得到

$\triangledown v_{\pi_{\theta } }(s)=\sum_{a}^{}q_{\pi_{\theta } }(s,a)\triangledown \pi _{\theta }(a\mid s)+\sum_{a}^{}\pi_{\theta } (a\mid s)\triangledown q_{\pi_{\theta } }(s,a)$

$\triangledown q_{\pi _{\theta }}(s,a)=\gamma \sum_{s{}'}^{}p(s{}'\mid s,a)\triangledown v_{\pi _{\theta }}(s{}')$

將 $\triangledown q_{\pi _{\theta }}(s,a)$ 代入 $\triangledown v_{\pi _{\theta }}(s)$ ，得到

$\triangledown v_{\pi _{\theta }}(s)=\sum_{a}^{}q_{\pi _{\theta }}(s,a)\triangledown \pi _{\theta }(a\mid s)+\sum_{a}^{}\pi _{\theta }(a\mid s)\gamma \sum_{s{}'}^{}p(s{}'\mid s,a)\triangledown v_{\pi _{\theta }}(s{}')=\sum_{a}^{}q_{\pi _{\theta }}(s,a)\triangledown \pi _{\theta }(a\mid s)+\sum_{s{}'}^{}Pr_{\theta }\left [ S_{t+1}=s{}'\mid S_{t}=s \right ]\gamma \triangledown v_{\pi _{\theta }}(s{}')$

在策略 $\pi _{\theta }(a\mid s)$ 下，當 $s=S_{t}$ 時求上式的期望，得到

$E\left [ \triangledown v_{\pi _{\theta }}(S_{t}) \right ]=\sum_{s}^{}Pr\left [ S_{t}=s \right ]\triangledown v_{\pi _{\theta }}(S_{t})$

$=\sum_{s}^{}Pr\left [ S_{t}=s \right ]\left [ \sum_{a}^{}q_{\pi _{\theta }}(s,a)\triangledown \pi _{\theta }(a\mid s)+\sum_{s{}'}^{}Pr_{\theta }\left [ S_{t+1}=s{}'\mid S_{t}=s \right ]\gamma \triangledown v_{\pi _{\theta }}(s{}') \right ]$

$=\sum_{s}^{}Pr\left [ S_{t}=s \right ]\sum_{a}^{}q_{\pi _{\theta }}(s,a)\triangledown \pi _{\theta }(a\mid s)$

$+\sum_{s}^{}Pr\left [ S_{t}=s \right ]\sum_{s{}'}^{}Pr_{\theta }\left [ S_{t+1}=s{}'\mid S_{t}=s \right ]\gamma \triangledown v_{\pi _{\theta }}(s{}')$

$=\sum_{s}^{}Pr\left [ S_{t}=s \right ]\sum_{a}^{}q_{\pi _{\theta }}(s,a)\triangledown \pi _{\theta }(a\mid s)+\gamma\sum_{s{}'}^{}Pr_{\theta }\left [ S_{t+1}=s{}' \right ]\triangledown v_{\pi _{\theta }}(s{}')$

$=E\left [ \sum_{a}^{}q_{\pi _{\theta }}(S_{t},a)\triangledown \pi _{\theta }(a\mid S_{t}) \right ]+\gamma E\left [ \triangledown v_{\pi _{\theta }}(S_{t+1}) \right ]$

這樣就得到了從 $E\left [ \triangledown v_{\pi _{\theta }}(S_{t}) \right ]$ 到 $E\left [ \triangledown v_{\pi _{\theta }}(S_{t+1}) \right ]$ 的遞推式，注意到最終關注的梯度值就是

$\triangledown E_{\pi _{\theta }}\left [ G_{0} \right ]=\triangledown E\left [ v_{\pi _{\theta }}(S_{0}) \right ]=E\left [ \triangledown v_{\pi _{\theta }}(S_{0}) \right ]$

所以有

$\triangledown E_{\pi _{\theta }}\left [ G_{0} \right ]=E\left [ \triangledown v_{\pi _{\theta }}(S_{0}) \right ]$

$=E\left [ \sum_{a}^{}q_{\pi _{\theta }}(S_{0},a)\triangledown \pi _{\theta }(a\mid S_{0}) \right ]+\gamma E\left [ \triangledown v_{\pi _{\theta }}(S_{1}) \right ]$

$=E\left [ \sum_{a}^{}q_{\pi _{\theta }}(S_{0},a)\triangledown \pi _{\theta }(a\mid S_{0}) \right ]+E\left [ \gamma \sum_{a}^{}q_{\pi _{\theta }}(S_{1},a)\triangledown \pi _{\theta }(a\mid S_{1}) \right ]+\gamma^{2} E\left [ \triangledown v_{\pi _{\theta }}(S_{2}) \right ]$

$=\cdots$

$=\sum_{t=0}^{+\infty }E\left [ \gamma ^{t}q_{\pi _{\theta }}(S_{t},a)\triangledown \pi _{\theta }(a\mid S_{t}) \right ]$

考慮到

$\triangledown \pi _{\theta }(a\mid S_{t})=\pi _{\theta }(a\mid S_{t})\triangledown ln\pi _{\theta }(a\mid S_{t})$

所以

$E\left [ \gamma ^{t}q_{\pi _{\theta }}(S_{t},a)\triangledown \pi _{\theta }(a\mid S_{t}) \right ]$

$=E\left [ \sum_{a}^{}\pi _{\theta }(a\mid S_{t})\gamma ^{t}q_{\pi _{\theta }}(S_{t},a)\triangledown ln\pi _{\theta }(a\mid S_{t}) \right ]$

$=E\left [ \gamma ^{t}q_{\pi _{\theta }}(S_{t},A_{t})\triangledown ln\pi _{\theta }(A_{t}\mid S_{t}) \right ]$

又由于 $q_{\pi _{\theta }}(S_{t},A_{t})=E\left [ G_{t}\mid S_{t},A_{t} \right ]$ ，所以

$E\left [ \gamma ^{t}q_{\pi _{\theta }}(S_{t},a)\triangledown \pi _{\theta }(a\mid S_{t}) \right ]=E\left [ \gamma ^{t}q_{\pi _{\theta }}(S_{t},A_{t})\triangledown ln\pi _{\theta }(A_{t}\mid S_{t}) \right ]$

$=E\left [ \gamma ^{t}G_{t}\triangledown ln\pi _{\theta }(A_{t}\mid S_{t}) \right ]$

因此

策略梯度：

$\triangledown E_{\pi _{\theta }}\left [ G_{0} \right ]=E\left [ \sum_{t=0}^{+\infty }\gamma ^{t}G_{t}\triangledown ln\pi _{\theta }(A_{t}\mid S_{t}) \right ]$

2 Reinforce演算法

在每一個回合結束后，就回合中的每一步利用如下迭代式更新 $\theta$

$\theta _{t+1}\leftarrow \theta _{t}+\alpha \gamma ^{t}G_{t}\triangledown ln\pi _{\theta }(A_{t}\mid S_{t})$

這樣的演算法稱為簡單的策略梯度演算法，R.Willims稱它為“REward Increment=Nonnegative Factor x Offset Reinforcement x Characteristic Eligibility”(REINFORCE)，表示增量 $\alpha \gamma ^{t}G_{t}\triangledown ln\pi _{\theta }(A_{t}\mid S_{t})$ 是由三個部分的積組成，這樣迭代完這個回合軌跡就實作了

$\theta \leftarrow \theta +\alpha \sum_{t=0}^{+\infty }\gamma ^{t}G_{t}\triangledown ln\pi _{\theta }(A_{t}\mid S_{t})$

在具體的更新程序中，不一定要嚴格采用這樣的形式，當采用自動微分的軟體包來學習引數時，可以定義單步的損失為 $-\gamma ^{t}G_{t}\triangledown ln\pi _{\theta }(A_{t}\mid S_{t})$ ，讓軟體包中的優化器減小整個回合中所有步的平均損失，就會沿著 $\sum_{t=0}^{+\infty }\gamma ^{t}G_{t}\triangledown ln\pi _{\theta }(A_{t}\mid S_{t})$ 的梯度方向更新引數 $\theta$ ，

3 Reinforce演算法偽代碼

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/400408.html

標籤：其他

上一篇：【OpenCV-Python】30.OpenCV的特征檢測——物件查找

下一篇：論文復現：基于客戶滿意度的外賣路線優化方法(改進遺傳演算法）

深度強化學習-策略梯度演算法推導

1 策略梯度演算法推導

1.1 方法一

1.2 方法二

2 Reinforce演算法

3 Reinforce演算法偽代碼