主頁 > 前端設計 > 蒙特卡洛樹搜索 MCTS 入門

蒙特卡洛樹搜索 MCTS 入門

2020-10-15 23:33:37 前端設計

引言

??你如果是第一次聽到蒙特卡洛,可能會認為這是一個人名,那么你就大錯特錯,蒙特卡洛不是一個人名,而是一個地方,還一個賭場名!!!但是這不是我們的重點,

??我們今天的主題就是入門蒙特卡洛樹搜索,這個演算法我個人覺得非常神奇也非常有意思,因為前幾年 AlphaGo 就是借助蒙塔卡洛樹搜索以及基于深度學習的的策略價值網路擊敗了人類冠軍,贏得了勝利,而今天我們的主角就是蒙特卡洛樹搜索它究竟是怎么實作的?它的原理?以及會舉出一個例子來告訴大家整個演算法的作業流程,


一、什么是 MCTS?

??蒙特卡洛樹搜索是一類樹搜索演算法的統稱,簡稱 MCTS( Monte Carlo Tree Search),它是一種用于某些決策程序的啟發式搜索演算法,且在搜索空間巨大的游戲中會比較有效,那什么叫做搜索空間巨大呢?比如說,在上世紀90年代,IBM公司推出深藍這個 AI,擊敗了當時國際象棋的世界冠軍,而這個 AI 也比較簡單粗暴,把整個國際象棋的搜索空間全部窮舉出來,把整個游戲樹全部列舉出來,那么不管對手下什么,它都知道下一步怎么下可以把他下贏,而對于圍棋這種游戲,圍棋棋盤是 19*19 的,也就是說有 361 個落子的位置,那么如果我們想把所有圍棋的棋局的可能列舉出來,一般來說就是 361!,這個數量是比宇宙的原子數量還要多的,就算是世界上最強的超級計算機也無法把所有的可能性窮舉出來,那么我們就需要用到類似于蒙特卡洛樹搜索這樣的稍微智能一點,更可行的辦法去對圍棋這個游戲可以進行棋盤式的搜索,然后進行決策,最后下贏人類選手,

??從全域來看,蒙塔卡洛樹搜索的主要目標是:給定一個游戲狀態來選擇最佳的下一步

??MCTS 受到關注主要是由計算機圍棋程式的成功以及潛在的眾多難題上的應用所致,超越博弈游戲本身,MCTS 理論上可以被用在以(狀態 state,行動 action)對定義和用模擬進行預測輸出結果的任何領域,

??常見應用包括 Alpha Go,象棋或圍棋 AI 程式等等,


二、演算法程序

演算法程序一般有四步:

  • 選擇(Selection):選擇能夠最大化 UCB 值的結點
    在這里插入圖片描述
  • 擴展(Node Expansion):創建一個或多個子結點
  • 仿真(Simulation):在某一結點用隨機策略進行游戲,又稱 playout 或 rollout
  • 反向傳播(Backpropagation):使用隨機搜索的結果來更新整個搜索樹

??在完成了反向傳播這一步,我們就會持續迭代,回到選擇這一步,然后再進行擴展仿真,然后再反向傳播,再回到選擇擴展仿真,不斷地迭代下去,直到演算法結束并且給出最終決策,

??下面,我將用一個流程圖簡單展示一下上面四個步驟:
在這里插入圖片描述

當然你可能看上面的流程圖會有點迷,不要慌,下面我用一個中文流程圖展示一下整個演算法的流程,

在這里插入圖片描述

??整個演算法程序是這樣的,一開始,我們會找到根節點 S0,代表目前的游戲的一個狀態,那么接下來判斷它是否是葉節點,如果它不是葉節點,是一個中間節點的話,我們就計算出該結點下面的所有子結點的 UCB 值并且找到 UCB 值最大的子結點,然后將這個 UCB 最大值的子結點當作當前節點進行下一步迭代,繼續判斷當前結點是否是葉節點,若它還不是葉節點,我們就在這個結點下面計算它的所有子節點的 UCB 值并找出最大的結點當作當前結點繼續進行迭代,直到找出一個結點是葉節點,我們就判斷該節點的 n(探索的次數) 是否為 0,如果它的探索次數為 0,那么就代表該結點是沒有被探索過的,那么我們就進行 ROLLOUT,如果不是 0,我們就列舉出當前結點所有的動作,并添加到樹中,這一步相當于是 Node Expansion,然后我們將第一個新結點作為當前結點,然后進行 ROLLOUT,

下面我將對演算法的四個步驟做進一步的論述,

1. 選擇(selection)

下面我對選擇中 UCB 公式中的各項做一個解釋,
在這里插入圖片描述

  • Vi:該結點下的平均 Value 大小,比如說,好的一步它的 Value 更大一些,差的一步相對來說要小一些
  • c :常數,通常可以取 2,相當于是加號兩邊式子的一個權重
  • N:總探索次數,就是對所有的結點一共 explore 了多少次
  • ni:當前結點的探索次數

2. 擴展(Node Expansion)

下面通過一個例子來說明,

??比如我們從根節點出發,它不是葉子節點,之后計算它的兩個子節點的 UCB 值,比如說結點 3 的 UCB 值更大,但是它之前已經被訪問過了,根據我們之前的流程圖,該節點不會直接進行 ROLLOUT,而是列舉出當前節點所有可能的動作并添加到樹中,那么我們列舉出了結點 3 可能有兩個動作,所以形成了圖(2),然后接下來我們再看我們要采取哪種動作,這就是 Node Expansion,
在這里插入圖片描述

3. 仿真(Rollout)

??接著上面一步,根據我們的流程圖,會將第一個新結點(結點 4)作為當前結點,會對它進行一個 Rollout,
在這里插入圖片描述
??那么這個 rollout 怎么做呢?它會進行一個隨機檢測,下面我用一段偽代碼來表示 rollout 程序:

def Rollout(S_i): # S_i:當前狀態
	loop forever: # 無限回圈
		if S_i a terimal state: # 如果當前狀態是個終止狀態,比如說你贏了或者他贏了
			return value(S_i)   # 回傳對 S_i 這個狀態的價值,比如說你贏了,這個價值可能就會相對比較高
		
		# 假設還沒到終止狀態
		A_i = random(available_action(S_i)) # 隨機選取當前狀態下能夠采取的一個動作
		S_i = simulate(A_i, S_i)   # 通過當前狀態 S_i 與隨機選取的動作 A_i 來計算出下一步的狀態并賦值給 S_i

??下面我再用圖示進行說明,

??來看下面這張圖,假設我們從黃色節點 1 進行 Rollout,它隨機決策到結點 2,然后再隨即決策到結點 3,然后在隨機決策一直到最后紅色結點 7,該節點的狀態是 terminal state,然后得到一個 value,然后再將 value 回傳給黃色節點 1,
在這里插入圖片描述
??這一步其實也是蒙克卡羅樹搜索的非常重要的一關,因為這一步很像是在用隨機的方法去逼近整體的一個分布,你想,如果黃色節點 1 代表的是更好的一個動作的話,那么贏的概率就會更大一點,經過很多次的仿真,都會得到一個比較大的概率值,如果它是一個不好的策略,那么經過很多次的仿真,大概率是不會得到一個很好的概率,

4. 反向傳播(Backpropagation)

??在完成了 Selection,Expansion 和 Rollout 之后,我們再進行 Backpropagation,它是做什么的呢?

??在 Rollout 中我們計算出了 value 之后,我們需要回傳這個 value,那么對于它所有的父節點(下圖黑線上的所有的結點),它們的探索次數全部 +1,它們的 value 也會進行一個累加,然后我們整個演算法會 repeate 很多次,直到蒙特卡洛樹能夠給出當前狀態下最好的一個解答,就是我到底應該怎么走,
在這里插入圖片描述

??那么四個步驟到此就結束了,但是之前提到過這個演算法會一直進行迭代,那么這個演算法到底什么時候結束?


演算法何時終結?

??一般的方法比如說游戲內棋手的限制時間,比如說,像圍棋,國際象棋,在比賽當中每個棋手的時間都是有限制的,但是如果你用電腦肯定就有無限的時間,你可以將其全部窮舉出來,但是這樣是沒有意義的,所以我覺得一個 AI 能夠在規定時間內,尤其是時間越少越好,能夠在更少的時間內做出更好的決策說明這個機器才更加的智能,如果給你無限的時間來做出一個決策,你可以暴力窮舉出所有的可能性,其實就說明這個 AI 沒有那么智能,所以一般來說我們會在規定時間范圍內終結演算法的迭代,然后給出最優的一個解答,下一步應該怎么走,然后再讓對面去下棋,對面下完之后,你再進行一個搜索在規定時間內給出一個最優的,

??還有一種就是固定迭代的次數,比如說,第一個 AI 迭代了 5000 次得到了一個比較好的結果,另一個 AI 用了 50 次就迭代出了一個比較好的結果,那么就基本認定第二個 AI 相對來說是比較智能的,所以我們也可以給出一個固定的迭代次數,比如說你算到 5000 次迭代就讓蒙特卡洛樹搜索停下來給出一個決策,

??至于怎么給出一個決策呢?很簡單,在迭代完成后,選擇 value 更大的結點即可完成決策,


舉例說明

??下面舉出一個例子來詳細說明蒙特卡洛樹搜索的程序,

??首先我們有一個根節點,S_0,它有兩個屬性值 T_0(價值),N_0(迭代的次數),
在這里插入圖片描述
??那么我們首先先判斷 S_0 是否是葉節點,它確實是一個葉節點,我們需要對它進行一個 Node Expansion,我們發現有兩種策略可以采取分別為 S_1 和 S_2,
在這里插入圖片描述
??在這里,我們可以直接選擇 S_1 作為當前節點,也可以通過 UCB 公式計算一下 S_1 和 S_2 的 UCB 值,并選取其中 UCB 值較大的節點作為當前節點,下面我們在列出 UCB 的公式:
在這里插入圖片描述

??可以發現 S_1 和 S_2 的 ni 都是 0,那么對于 S_1 和 S_2 來說,它們的 UCB 值都是無窮大,所以選擇誰都是一樣的,那么我就根據我上面畫的流程圖,選擇第一個新結點作為當前節點,即 S_1,

??然后我們發現 S_1 的 n_1(探索次數)為 0,即它沒有被探索過,根據之前的流程圖就應該進行 Rollout,
在這里插入圖片描述
??結果我們發現 value = 20,在 Rollout 完成之后,我們對 S_1 進行 Backpropagation,將 S_1 的 T_1 更新為 20,n_1 更新為 1,然后再反向傳播到它的父節點 S_0,并更新S_0 的 T_0 為 20,N_0 為 1,那么就完成了第一輪迭代,
在這里插入圖片描述
??每一次迭代,都需要從根節點開始,所以到了第二輪迭代,我們同樣首先判斷 S_0 是否是葉節點,S_0 不是葉節點,然后我們使用 UCB 對它進行一個 Selection,選擇下一個節點,S_1 的迭代次數為 1,而 S_2 的迭代次數還是 0,所以 S_2 的 UCB 還是無窮大,所以下一個節點選擇 S_2,然后判斷 S_2 是否是葉節點,它是葉節點,并且還未被探索過,那么直接對 S_2 進行 Rollout,然后我們得到 value = 10,然后進行 Backprppagation,更新 S_2 的 T_2 為 10, n_2 為 1,然后更新 S_2 的父節點 S_0,將 S_0 的 T_0 更新為 30(20+10),N_0 為 2(1+1),那么就完成了第二次迭代,
在這里插入圖片描述
??接下來,我們繼續迭代,我們還是從 S_0 開始,它不是葉節點,然后計算 S_1 和 S_2 的 UCB 值,
在這里插入圖片描述

??因為 S_1 的 UCB 大于 S_2,所以我們選擇 S_1,S_1 是一個葉節點,并且它的探測次數不為 0,那么我們就列舉出當前節點所有可能的動作,并添加到樹中,即 Node Expansion,那么假設 S_1 也有兩個動作 S_3 和 S_4,

在這里插入圖片描述
??因為 S_3 和 S_4 它們的探索次數都為 0,所以 UCB 都為無窮大,所以我們還是選擇第一個新結點 S_3 作為當前節點,然后對 S_3 進行 Rollout,最終我們得到的 value = 0,然后對它進行一個反向傳播,更新 S_3 的 T_3 為 0,n_3 為 1,更新 S_1 的 n_1 為 2,T_1 不變,更新 S_0 的 N_0 為 3,T_0 不變,這就是我們的第三次迭代,
在這里插入圖片描述
??然后我們進入第四次迭代,還是從 S_0 開始,它不是葉節點,然后根據 UCB 公式計算我們選擇 S_1 還是 S_2,此時我們需要注意的是,在 UCB 公式中,Vi 是 value 的平均值,所以在 S_1 中,S_1 已經被探索了 2 次,所以 S_1 的平均 value 為 10(20/2=10),那么 S_1 和 S_2 的 UCB 計算如下:

在這里插入圖片描述
??所以我們下一個節點選取 S_2,S_2 為葉節點,而且已經被探索過了,所以需要列舉出所有的動作并添加到樹中,還是假設 S_2 有 2 個動作 S_5 和 S_6,然后我們選擇 S_5 對其進行 Rollout,得到 value = 15,然后依次更新 S_5,S_2, S_6 相應的 T 和 n,然后又完成了一次迭代,
在這里插入圖片描述
??假如我們現在就停止迭代,那么我們看一下我們究竟應該選 S_1 還是 S_2,很明顯,S_2 的 T_2 (value)會更大一些,所以說我們通常會選擇 S_2,也就是做第二個動作,是目前這個樹當中最優的解,

??那么,關于 UCB 公式還有幾個需要注意的點,如果說 Vi 越大,那么 UCB 相應的也是越大的,而 UCB 越大代表越有可能選擇這條路徑,Vi 越大代表這個節點平均的價值會更高,我們就更愿意去搜索它,但是如果說只有 Vi 可不可以呢?比如將 UCB 公式變成這樣:
在這里插入圖片描述

??當然不行,如果這樣的話那些沒有被探索過的節點就永遠不會被探索,這就是為什么會有右邊這一項,特別是當 ni 等于 0 的時候,UCB 會等于無窮大,那么就一定會去探索這個沒有被探索過的節點,那么隨著 N 的一些變化,相應的 UCB 也會跟著變化,總之,這個 UCB 公式既保證了探索了的分支可以再次被探索,又保證了我們盡量去探索那些價值更大的那些路徑然后讓我們能夠更好的完成整個游戲,
在這里插入圖片描述


??以上就是我對蒙特卡洛樹搜索的初步理解,如有錯誤,還請指正~~

轉載請註明出處,本文鏈接:https://www.uj5u.com/qianduan/173344.html

標籤:其他

上一篇:BigDecimal 精度問題

下一篇:公司招了個培訓機構出來的實習生

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • vue移動端上拉加載

    可能做得過于簡單或者比較low,請各位大佬留情,一起探討技術 ......

    uj5u.com 2020-09-10 04:38:07 more
  • 優美網站首頁,頂部多層導航

    一個個人用的瀏覽器首頁,可以把一下常用的網站放在這里,平常打開會比較方便。 第一步,HTML代碼 <script src=https://www.cnblogs.com/szharf/p/"js/jquery-3.4.1.min.js"></script> <div id="navigate"> <ul> <li class="labels labels_1"> ......

    uj5u.com 2020-09-10 04:38:47 more
  • 頁面為要加<!DOCTYPE html>

    最近因為寫一個js函式,需要用到$(window).height(); 由于手寫demo的時候,過于自信,其實對前端方面的認識也不夠體系,用文本檔案直接敲出來的html代碼,第一行沒有加上<!DOCTYPE html> 導致了$(window).height();的結果直接是整個document的高 ......

    uj5u.com 2020-09-10 04:38:52 more
  • WordPress網站程式手動升級要做好資料備份

    WordPress博客網站程式在進行升級前,必須要做好網站資料的備份,這個問題良家佐言是遇見過的;在剛開始接觸WordPress博客程式的時候,因為升級問題和博客網站的修改的一些嘗試,良家佐言是吃盡了苦頭。因為購買的是西部數碼的空間和域名,每當佐言把自己的WordPress博客網站搞到一塌糊涂的時候 ......

    uj5u.com 2020-09-10 04:39:30 more
  • WordPress程式不能升級為5.4.2版本的原因

    WordPress是一款個人博客系統,受到英文博客愛好者和中文博客愛好者的追捧,并逐步演化成一款內容管理系統軟體;它是使用PHP語言和MySQL資料庫開發的,用戶可以在支持PHP和MySQL資料庫的服務器上使用自己的博客。每一次WordPress程式的更新,就會牽動無數WordPress愛好者的心, ......

    uj5u.com 2020-09-10 04:39:49 more
  • 使用CSS3的偽元素進行首字母下沉和首行改變樣式

    網頁中常見的一種效果,首字改變樣式或者首行改變樣式,效果如下圖。 代碼: <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <meta name="viewport" content="width=device-width, ......

    uj5u.com 2020-09-10 04:40:09 more
  • 關于a標簽的講解

    什么是a標簽? <a> 標簽定義超鏈接,用于從一個頁面鏈接到另一個頁面。 <a> 元素最重要的屬性是 href 屬性,它指定鏈接的目標。 a標簽的語法格式:<a href=https://www.cnblogs.com/summerxbc/p/"指定要跳轉的目標界面的鏈接">需要展示給用戶看見的內容</a> a標簽 在所有瀏覽器中,鏈接的默認外觀如下: 未被訪問的鏈接帶 ......

    uj5u.com 2020-09-10 04:40:11 more
  • 前端輪播圖

    在需要輪播的頁面是引入swiper.min.js和swiper.min.css swiper.min.js地址: 鏈接:https://pan.baidu.com/s/15Uh516YHa4CV3X-RyjEIWw 提取碼:4aks swiper.min.css地址 鏈接:https://pan.b ......

    uj5u.com 2020-09-10 04:40:13 more
  • 如何設定html中的背景圖片(全屏顯示,且不拉伸)

    1 <style>2 body{background-image:url(https://uploadbeta.com/api/pictures/random/?key=BingEverydayWallpaperPicture); 3 background-size:cover;background ......

    uj5u.com 2020-09-10 04:40:16 more
  • Java學習——HTML詳解(上)

    HTML詳解 初識HTML Hyper Text Markup Language(超文本標記語言) 1 <!--DOCTYPE:告訴瀏覽器我們要使用什么規范--> 2 <!DOCTYPE html> 3 <html lang="en"> 4 <head> 5 <!--meta 描述性的標簽,描述一些 ......

    uj5u.com 2020-09-10 04:40:33 more
最新发布
  • 我的第一個NPM包:panghu-planebattle-esm(胖虎飛機大戰)使用說明

    好家伙,我的包終于開發完啦 歡迎使用胖虎的飛機大戰包!! 為你的主頁添加色彩 這是一個有趣的網頁小游戲包,使用canvas和js開發 使用ES6模塊化開發 效果圖如下: (覺得圖片太sb的可以自己改) 代碼已開源!! Git: https://gitee.com/tang-and-han-dynas ......

    uj5u.com 2023-04-20 07:59:23 more
  • 生產事故-走近科學之消失的JWT

    入職多年,面對生產環境,盡管都是小心翼翼,慎之又慎,還是難免捅出簍子。輕則滿頭大汗,面紅耳赤。重則系統停擺,損失資金。每一個生產事故的背后,都是寶貴的經驗和教訓,都是專案成員的血淚史。為了更好地防范和遏制今后的各類事故,特開此專題,長期更新和記錄大大小小的各類事故。有些是親身經歷,有些是經人耳傳口授 ......

    uj5u.com 2023-04-18 07:55:04 more
  • 記錄--Canvas實作打飛字游戲

    這里給大家分享我在網上總結出來的一些知識,希望對大家有所幫助 打開游戲界面,看到一個畫面簡潔、卻又富有挑戰性的游戲。螢屏上,有一個白色的矩形框,里面不斷下落著各種單詞,而我需要迅速地輸入這些單詞。如果我輸入的單詞與螢屏上的單詞匹配,那么我就可以獲得得分;如果我輸入的單詞錯誤或者時間過長,那么我就會輸 ......

    uj5u.com 2023-04-04 08:35:30 more
  • 了解 HTTP 看這一篇就夠

    在學習網路之前,了解它的歷史能夠幫助我們明白為何它會發展為如今這個樣子,引發探究網路的興趣。下面的這張圖片就展示了“互聯網”誕生至今的發展歷程。 ......

    uj5u.com 2023-03-16 11:00:15 more
  • 藍牙-低功耗中心設備

    //11.開啟藍牙配接器 openBluetoothAdapter //21.開始搜索藍牙設備 startBluetoothDevicesDiscovery //31.開啟監聽搜索藍牙設備 onBluetoothDeviceFound //30.停止監聽搜索藍牙設備 offBluetoothDevi ......

    uj5u.com 2023-03-15 09:06:45 more
  • canvas畫板(滑鼠和觸摸)

    <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title>canves</title> <style> #canvas { cursor:url(../images/pen.png),crosshair; } #canvasdiv{ bo ......

    uj5u.com 2023-02-15 08:56:31 more
  • 手機端H5 實作自定義拍照界面

    手機端 H5 實作自定義拍照界面也可以使用 MediaDevices API 和 <video> 標簽來實作,和在桌面端做法基本一致。 首先,使用 MediaDevices.getUserMedia() 方法獲取攝像頭媒體流,并將其傳遞給 <video> 標簽進行渲染。 接著,使用 HTML 的 < ......

    uj5u.com 2023-01-12 07:58:22 more
  • 記錄--短視頻滑動播放在 H5 下的實作

    這里給大家分享我在網上總結出來的一些知識,希望對大家有所幫助 短視頻已經無數不在了,但是主體還是使用 app 來承載的。本文講述 H5 如何實作 app 的視頻滑動體驗。 無聲勝有聲,一圖頂百辯,且看下圖: 網址鏈接(需在微信或者手Q中瀏覽) 從上圖可以看到,我們主要實作的功能也是本文要講解的有: ......

    uj5u.com 2023-01-04 07:29:05 more
  • 一文讀懂 HTTP/1 HTTP/2 HTTP/3

    從 1989 年萬維網(www)誕生,HTTP(HyperText Transfer Protocol)經歷了眾多版本迭代,WebSocket 也在期間萌芽。1991 年 HTTP0.9 被發明。1996 年出現了 HTTP1.0。2015 年 HTTP2 正式發布。2020 年 HTTP3 或能正... ......

    uj5u.com 2022-12-24 06:56:02 more
  • 【HTML基礎篇002】HTML之form表單超詳解

    ??一、form表單是什么

    ??二、form表單的屬性

    ??三、input中的各種Type屬性值

    ??四、標簽 ......

    uj5u.com 2022-12-18 07:17:06 more