強化學習 (Reinforcement Learning)-有解無憂

強化學習：

強化學習是機器學習中的一個領域，強調如何基于環境而行動，以取得最大化的預期利益，其靈感來源于心理學中的行為主義理論，即有機體如何在環境給予的獎勵或懲罰的刺激下，逐步形成對刺激的預期，產生能獲得最大利益的習慣性行為，

是為了讓機器從一開始什么都不會什么都不懂，通過不斷的從錯誤中學習，不斷的去嘗試，然后找到規律，學習到達到目標的方法，這就是完整的強化學習的程序，

例如：

強化學習所解決的問題的特點：

智能體和環境之間不斷進行互動

搜索和試錯

延遲獎勵（當前所做的動作可能很多步之后才會產生相應的結果）

目標：

獲取更多的累積獎勵alphago

獲得更可靠的估計

強化學習 (Reinforcement Learning) 是一個機器學習大家族中的分支, 由于近些年來的技術突破, 和深度學習 (Deep Learning) 的整合, 使得強化學習有了進一步的運用，比如讓計算機學著玩游戲, AlphaGo 挑戰世界圍棋高手, 都是強化學習在行的事，強化學習也是讓你的程式從對當前環境完全陌生, 成長為一個在環境中游刃有余的高手，

那么在機器當中，機器也需要一個好的老師，它不會告訴你對錯，只會給到你得分，那么這個時候，機器就會慢慢學習到，到底做了那些動作，然后的到了高分，

如何根據特定的任務，選取不同的強化學習的方法？

大致可以分為兩類：

不理解環境（model-free RL）：就是不嘗試這去理解環境，環境給到我們什么我們就嘗試著使用什么

理解環境（model-base RL）：就是有了一個模型去理解環境，這個模型就是環境

那么不理解環境的情況下，都有哪些方法呢？

Q learning
Sarsa
Policy Gradients

而理解環境的無非就是多了一道工序，理解環境，也就是對模型進行了一個建模，然后它不僅可以在真實的世界中玩耍，也可以在虛擬的世界中玩耍，那么玩耍的方式也是，那幾種，

所以它們兩個最主要的區別是什么？

Model-free的方法，只能是通過環境給的反饋，然后一步一步的往下進行：

Model-base的方法，它可以通過建模來去想像接下來要發生的各種各樣的事件的可能性，

這也就是在比賽場上Alphago能夠超越人類的原因

learning：

什么是Q-learning？

例如小時候，寫作業和看電視，寫完作業，就會得到相應的獎勵，寫不完就會被懲罰，

當前的狀態呢是寫作業（s1），我想判斷一下，下一步是寫作業（a2）還是看電視（a1），好這個時候我們聯想了一下，發現下一個動作選擇a2，要比選擇a1的到的潛在獎勵要高，那么這個時候就會選擇a2，那么具體是怎么判斷的潛在獎勵，可以是使用S1關于a的一個Q表來表示，現在我們將狀態更新到了s2，那么接下來是a1還是a2，這個時候又更新了一個Q表，來做選擇，依次重復，

如何更新提升？

Sarsa和Q-learning是非常的相似的，它們最大的區別就是，sarsa是實踐派，因為在做估計的時候，Q-learning在Q表中，獲取到一個最大值，但是在真實的選區中，它并不一定會選取到最大獎勵的那個值，而sarsa就是實踐派，它一定會選擇到獎勵最大的值，

它們更新公式的區別：

因為sarsa是說到做到型，因此我們也叫他on-policy在線學習，而Q-learning叫做off-policy，

DQN（Deep Q Network）：

谷歌就是靠這種方式使得點電腦玩游戲比我們人類玩游戲還要厲害很多，而這次我們說的這個DQN就是Q-learning融合了深度學習的方法，Q-learning也有一種瓶頸在里邊，它們都是使用表格進行存盤的，但是就比如說下圍棋，使用表格的話，這個表格該是得有多大，

但是這并不是機器會玩游戲得根本原因；根本原因是因為了兩個機制，一個是Experience replay，一個是Fixed Q-target：

Experience replay：很簡單，就是再過往得經歷當中，隨機的去抽樣，去學習引數，就好像一個資料庫一樣，隨機抽樣，消除了經歷之間得相關性，這樣可以更高效得學習到神經網路中得引數，而Fixed Q-target：使用兩個結構相同得網路，一個網路中使用最新得引數預測Q得預測值，另一個網路中使用老的引數得到Q得真實值，然后對比去更新，

接著Policy Gradients，我們學了很多得方法，發現有學習獎懲得值，然后根據這些值的最高價值，去選擇動作，當然也有不通過選取值，直接輸出動作的方法，就是Policy Gradients，

這個演算法最大的好處就是說，它能夠再連續的動作空間上直接選擇到動作，而基于值得方式不行，為什么不行，想象一下，在一個動作空間很大得空間中，先去計算出每個動作連續得值，然后再去根據值得可能性去選擇動作，很明顯計算太大，根本是吃不消得，

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/385417.html

標籤：其他

上一篇：使用 Python 的音樂播放器 GUI

下一篇：3DText無法被物體遮擋 - 解決