文章目錄
- 前言
- 一、題目描述
- 二、計算程序
- 1.策略評估
- 2.策略提升
- 3.最優策略
前言
這是一道2020-2021國科大高級人工智能期末考試的一道格子題
一、題目描述
每一個格子等概率向著4個方向移動,每次移動一步,收益為 -1 ,移動到出口結束游戲,若當前移動會導致出界,則移動后位置不變:
黃色是出口,

二、計算程序

1.策略評估
利用動態規劃的方法求當前策略下每個格子估值

2.策略提升
根據每個格子的估值求對應的貪心策略

3.最優策略
根據第二問得到的貪心策略,列出方程組并求解

得到新的狀態估值

根據新的狀態估值得到新的貪心策略

根據新的貪心策略,列出在此貪心策略下的方程組

到此計算發現:v1、v2、v3、v4狀態估值不變,則最優策略與其相對應狀態估值如下:

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/400390.html
標籤:其他
上一篇:元旦快樂啊
