Ⅰ Introduction to Reinforcement Learning-有解無憂

Dictum:

?To spark, often burst in hard stone. -- William Liebknecht

??強化學習(Reinforcement Learning)是模仿人類的學習方式（比如，學習一種新的技能，從入門到掌握總是不斷地去尋錯，改正，直至完全掌握），強化學習的主要思想就是智能體在與環境的互動程序中不斷調整，以達到理想結果，

強化學習的框架

Reinforcement learning is learning what to do--how to map situations to actions--so as to maximize a numerical reward signal.

??強化學習的流程如下圖所示，智能體首先洞悉環境的當前狀態，再根據狀態做出相應的動作，環境會根據動作給出反饋到智能體，此時環境也會做出相應改變，智能體通過得到的反饋和改變后的狀態進行做出下一次的動作，如此迭代，最后達到最優效果，

RL_model

??智能體(agent)是學習者和決策者，它能在某種程度上感知環境的狀態，然后采取動作并影響環境的狀態，
??環境(environment)是強化學習問題中，除智能體以外與智能體互動的所有集合，

強化學習的特點

??強化學習兩個最重要的特征就是“試錯搜索(trial-and-error search)”和“延遲獎勵(delayed reward)"，智能體不會被告知選擇什么動作是最好的，而是需要通過嘗試去發現哪些動作獲得最大的獎勵，而所執行的動作不但影響即時獎勵，還可能使狀態發生改變從而影響未來的獎勵，因此，這給強化學習帶來了一個獨特的挑戰：更新策略的程序是在探索(exploration)和開發(exploitation)之間權衡完成的，為了獲得更多的獎勵，智能體需要不斷優化已經嘗試過的動作，同時為了選取最優的動作，智能體還需要不斷去嘗試新的動作，強化學習還有一個特點，就是它需要明確考慮目標導向型智能體與不確定性環境互動的整體問題，

強化學習的要素

??上面框圖展示了最簡單的強化學習架構的三個基本要素，下面將具體講述強化學習的幾種要素的定義和作用：

??狀態(state)，\(S_t\)，表示環境在\(t\)時刻所處的狀態\(s\)
??動作(action)，\(A_t\)，表示智能體在\(t\)時刻采取的動作\(a\)
??策略(policy)，\(\pi(a|s)\)，表示智能體在給定時間（狀態）下采取的行為方式，是環境狀態到動作的映射，一般是隨機函式，它是智能體的核心
??獎勵信號(reward signal)，定義了強化學問題的目標，即環境會在每一個時間步長給智能體發送被稱為“獎勵(reward)”的標量信號，\(R_t\)，它表示對智能體當前所執行策略的短期判斷，而價值函式則是對智能體當前所執行的長期判斷
??環境模型(model of the environment)，它是對外部環境運作規則的推斷，它被用于規劃（即在真正經歷之前，先考慮未來所有可能的情況做出預先的決策），強化學習的方法被分為兩種：基于模型(model-based)的方法和不基于模型(model-free)的方法--基于模型方法是通過模型和規劃解決實際問題，而無模型方法則通過試錯的方式學習

與其它學習方式的比較

??區別于監督學習，監督學習是從外部監督者給出的帶標簽樣本的訓練集中學習，標簽的實質就是先驗知識，事先會告訴學習器什么是對什么是錯，而強化學習只有獎勵值，這與監督學習的輸出不同，它是延遲給出的，這導致了智能體必須能夠從自身的經驗中學習，

??區別于無監督學習，無監督學習是從無標簽資料集中尋找隱藏的相似結構，無監督學習沒有輸出值，只有資料特征，而強化學習的目的是最大化獎勵信號，

??監督學習和無監督學習，它們的樣本資料一般都是相互獨立的，而強化學習每個時間步長得到的序列是迭代更新的，資料間的關聯十分緊密，

References

Richard S. Sutton and Andrew G. Barto. Reinforcement Learning: An Introduction (Second Edition). Cambridge, Massachusetts London, England : The MIT Press, 2018.

Csaba Szepesvári, ‘Algorithms for Reinforcement Learning’, Synthesis Lectures on Artificial Intelligence and Machine Learning, vol. 4, no. 1, pp. 1–103, Jan. 2010, doi: 10.2200/S00268ED1V01Y201005AIM009.

UCL Reinforcement Learning Course by David Silver：https://www.bilibili.com/video/BV1b7411y7ax

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/39006.html

標籤：其他

上一篇：學習筆記_西瓜書（周志華機器學習）&&慕課視頻(機器學習by蔣良孝、胡成玉）（學習中。。。）

下一篇：計算機視覺影像預處理中的 Zero-mean（零均值化）和 Normalization（歸一化）