強化學習
馬爾可夫決策程序(Markov Decision Processes,MDPs)
MDPs 簡單說就是一個智能體(Agent)采取行動(Action)從而改變自己的狀態(State)獲得獎勵(Reward)與環境(Environment)發生互動的回圈程序,
MDP 的策略完全取決于當前狀態(Only present matters),這也是它馬爾可夫性質的體現,
其可以簡單表示為:
基本概念
- : 有限狀態 state 集合,s 表示某個特定狀態
- : 有限動作 action 集合,a 表示某個特定動作
- Transition Model : Transition Model, 根據當前狀態 s 和動作 a 預測下一個狀態 s’,這里的 表示從 s 采取行動 a 轉移到 s’ 的概率
- Reward :表示 agent 采取某個動作后的即時獎勵,它還有 R(s, a, s’), R(s) 等表現形式,采用不同的形式,其意義略有不同
- Policy : 根據當前 state 來產生 action,可表現為 或 ,后者表示某種狀態下執行某個動作的概率
回報(Return):
與 折扣率(discount) : U 代表執行一組 action 后所有狀態累計的 reward 之和,但由于直接的 reward 相加在無限時間序列中會導致無偏向,而且會產生狀態的無限回圈,因此在這個 Utility 函式里引入 折扣率這一概念,令往后的狀態所反饋回來的 reward 乘上這個 discount 系數,這樣意味著當下的 reward 比未來反饋的 reward 更重要,這也比較符合直覺,定義
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/173319.html
標籤:java
