綜述論文《Deep Reinforcement Learning and Its Neuroscientific Implications》精華總結 & 近期RL前沿方向匯總-有解無憂

綜述論文《Deep Reinforcement Learning and Its Neuroscientific Implications》精華總結 & 近期RL前沿方向匯總

閱讀了一篇2020年發在Neuron上的文章《Deep Reinforcement Learning and Its Neuroscientific Implications》，

文中探討了關于深度強化學習和神經科學的聯系在這里主要盤點一下論文中提到的強化學習前沿方向，以作備忘，

所謂“深度強化學習”，即借助深度學習解決強化學習的問題，深度學習的引入使得強化學習可以解決更復雜的問題，以及演算法穩定性得到了很大的改善，

而強化學習本身是從生物行為中總結出來的，強化學習中的“獎勵（reward-prediction error， aka. RPE）”，則很大程度上等價于生物中的編碼“欲望”的多巴胺，

在深度強化學習中，基于獎勵的學習塑造了網路表示，而網路表示又反過來支持了基于獎勵的決策，

預測學習（prediction learning）：在預測學習中，Agent需要根據現在的狀態去預測下一步它最可能觀測到的狀態，以此完成對任務潛在規則的建模：
Wayne et al.,2018
Gelada et al.,2019

通過將環境分解為物體來更有效地探索和學習環境：
Watters et al.,2019

在某些情況下，類似于基于模型的RL的程序可能會自發地出現在訓練過我們的無模型RL演算法的系統中，
Guez et al., 2019

基于模型的行為也可以在使用特定形式的預測代碼的RL系統中看到，這被稱為“繼承者表示（successor representation）”
Ve′ rtes and Sahani,2019
Momennejad, 2020

深度強化學習中，記憶主要有兩種形式：

在記憶中引入注意力機制：
Parisotto et al.,2019

在高維空間中，隨機探索策略幾乎不再有效，
其中一種解決策略是賦予Agent好奇心，在這方面有很多作業：
Burda et al.,2019、
Badia et al.,2020

另外一種策略則是基于不確定性，比如選擇置信度更低的策略：
Osband et al.,2016

還有一些研究致力于讓個體在任務開銷的基礎上學習或發展自己的內在動機：
Zheng et al.,2018

此外，meta-learning是一個解決探索問題的全新思路，在meta-learning基礎上的探索自帶了對世界規則的一些先驗知識，比之無目的地隨即探索，更像是在進行假設-驗證實驗：
Dasgupta et al.,2019

最后，一些深層行為分析的研究提出通過在層次行為空間中隨機抽樣來解決問題：
Jinnai et al.,2020、
Hansen et al.,2020

類似于頂層Agent做抽象決策，底層Agent做更具體的決策，還待深入學習：
Barreto et al.,2019、
Harb et al., 2018

比如在有競爭性的團隊游戲中，多智能體應該如何考慮協作以及競爭的問題，
Jaderberg et al.,2019、
Berner et al.,2019

以及合作游戲中的協調問題：
Foerster et al.,2019

當任務中涉及到涉及到基于結構化推理的靈活適應，或者是利用強大的背景知識存盤時，深度強化學習的表現遠遜于人，
在長時間跨度任務時，獎勵的”信用分配“問題，即在任務的最后給一個獎勵，Agent應該如何根據過往的表現，以及最后的獎勵，以何種方式，何種程度更新不同網路部分的引數？
主流觀點認為在生物體中是不存在BP這種全域反傳誤差信號的機制的，目前的網路訓練大多都是基于BP的，然而在反向傳播中，在面對新學習時保留舊學習的結果存在固有的困難，

轉載請註明出處，本文鏈接：https://www.uj5u.com/ruanti/196298.html

標籤：其他