Google DeepMind 團隊發布新演算法，下一個被 AI 虐哭的是誰？-有解無憂

【編者按】2015 年 AlphaGo 出道一年，就戰勝法國二段職業棋手樊麾，2016 年 3 月以 4:1 戰勝韓國國手李世石九段，3 月 14 日，韓國棋院表示 AlphaGo 實力不遜于李世石九段，授予 Alphago 韓國棋院名譽九段證書，AlphaGo 一戰成名，要知道，多少棋手宵衣旰食也到不了九段，同年 12 月，強化版 AlphaGo 化名“Master”，在非正式網路快棋對戰測驗當中取得 60 戰全勝，2017 年 5 月，與中國棋手柯潔九段對戰，全取三分，虐哭柯潔，而且由于此次使用 Google 的 TPU，使得計算資源只有對戰李世石時候的十分之一，要知道，柯潔可不是旁人，是當時世界第一，年紀輕輕，已經手握多項含金量高比賽的冠軍，代表人類最高水平的棋手都無能為力，可見 AlphaGo 真的不是尋常之輩，賽后，中國圍棋協會也授予了 AlphaGo 職業圍棋九段的稱號，棋圣聶衛平更是盛贊 AlphaGo 的水平相當于職業圍棋二十段，賽后，DeepMInd 團隊宣布 AlphaGo 退役，但相關研究不會停止，

在這里插入圖片描述

中國圍棋協會授予 AlphaGo 中國職業圍棋九段稱號

作者 | 八寶粥

出品 CSDN(id：CSDNnews）

DeepMind 團隊為 AlphaGo 各個版本起了不同名字，歷數幾代分別稱為 AlphaGo 樊、AlphaGo李、AlphaGo Master，后來還推出了 AlphaGo Zero 和 Alpha Zero 等版本， AlphaGo Zero 及此后版本沒有用到人類資料，通過和自己對戰，訓練三天即可實作極高勝率，在那之后，AlphaGo 團隊獨孤求敗，淡出江湖，

此后， DeepMind 在蛋白質折疊等方面也做出 AlphaFold 等令人矚目的成就，

誰能想到，僅僅淡出了兩年，DeepMInd 團隊帶著 AlphaGo 的后輩——— MuZero 新重出江湖，MuZero 通過自我比賽以及和 AlphaZero 進行比賽，利用多項常規和殘局訓練，實作了演算法的升級突破，相關研究成果論文今年 12 月在國際頂級期刊 Nature 上發出（2019年，該文章在預印本平臺發布），如果此前 AlphaGo 版本是靠著機器學習和算力的一力降十會的話，此次的新演算法就是雙手互搏，無師自通，不光如此，MuZero 的 “魔爪”從圍棋伸向了各個領域，包括國際象棋、日本的將棋和 Atari 電子游戲，你冬練三九夏練三伏，別人一出世就自帶超強自學能力，而且人家全家輸的次數屈指可數，還都是輸給自己人，你說這比賽讓人怎么打？

平心而論，再早之前 “深藍”就已經深深傷過棋手們的心，各類智力比賽和游戲當中，圍棋可以說是難度非常高的了，本以為圍棋 324 格棋盤生出千萬般變化能夠守住人類的陣地，結果 AlphaGo 虐哭柯潔， Alpha Zero 還說 “我能自己學”，MuZero 說 “我能自己學，還不需要規則”，就像 AI 世界里的葉問，一個馬步攤手，豪氣發問：“我要打十個，還有誰？”

如果這次真的有人能上來對陣三招五式的話，可能也只有 AI 本身能對抗 AI了，或者像網友戲謔的那樣，“不讓他聯網”、“拔他電源”，，，，那么 MuZero 到底是哪路神仙呢？我們一起來看一下：
在這里插入圖片描述

從上圖可以看出，隨著技術的進化，需要的知識庫（規則）逐漸減少，到 MuZero 直接沒有了，而應用的領域卻逐漸增加，從圍棋、將棋擴展到 Atari 游戲，

文章表示，MuZero 和此前的 Alpha Zero 代碼相似，但是 MuZero 無法訪問規則集合，而是將該規則替換成了搜索樹狀態神經網路，研究人員主要通過以下方法應對 AI 的挑戰，超前搜索和基于模型的計劃，超前搜索已經在國際象棋、撲克等景點游戲當中取得成功，但是依賴于游戲規則，這樣的話，對于復雜世界和混亂的現實問題就沒有辦法，因為它們無法提煉成簡化的規則；基于模型的系統旨在學習環境動力學的精確模型，然后以此進行規劃和學習，不過對于視覺豐富的環境當中依然沒有競爭力，比如游戲 Atari 當中，最好的結果其實來自于無模型系統，

MuZero 使用另外的方法來克服此前方法的局限性，它不是對整個環境建模，而是對代理的決策環境或者關鍵方面進行建模，DeepMInd 表示：畢竟，了解雨傘會使您保持干燥比對空氣中雨滴進行建模更有用，

具體而言， MuZero 對三個元素進行建模，分別是值、策略、獎勵，分別衡量了：當前位置好壞程度、最優策略以及上一步好壞的衡量，通過蒙特卡羅搜索樹，配合動力學函式和預測函式，考慮下一步的動作序列，同時利用了和環境互動時候收集的經驗來訓練神經網路，在每一步當中保存之前的資訊，這個似乎是一種無監督學習內的強化學習，其實它也不能說完全 “無規則”，它唯一的規則其實是我們在下棋當中常說的“走一步、看三步”，不管是什么游戲，它都給自己一個這樣的規則，MuZero 就可以反復發使用學習的模型來改進計劃，而不需要從環境當中重新收集資料，

從專案主要開發者 Julian Schrittwieser 的博客當中，我們還發現了一些有意思的內容

在這里插入圖片描述

對于作者而言，這些也僅僅都是 “統計”而已，它是從 AlphaGo 和 Alpha Zero 當中集成的策略網路和價值網路，每一個網路都已經非常強大了，考慮策略網路，就能對于下一步有良好的預判，考慮價值網路，就能選擇價值最高的行動，結合兩者，當然就更完美了，

ps. 講點你不知道的東西～

為什么給它取名叫 MuZero 呢？
很大程度上來自于日語發音，開發者 Julian 覺得這個和日語夢、以及無的發音相似（為什么不去學中文啊大哥！）；另外他認為這個發音和希臘字母 μ 也很像，Zero 和此前一樣，表示沒有用到人類的資料，所以這個演算法可以讀作“木Zero”、"繆Zero"～不過開發者自己的發音是“繆Zero”，

這位小哥也很有意思，來自奧地利，對各種語言都很感興趣，當然也包括一些開發語言，而且努力學日語中～

在這里插入圖片描述

如果你對 MuZero 感興趣，不妨可以看看小哥博客里面推薦的文章，教你怎么利用 Python 搭建自己的 MuZero AI ，說不定也能用 AI 打敗誰（比如街邊下棋的大爺），

從 AlphaGo 震驚圍棋江湖以來，越來越多的 “唯人能贏”的游戲開始被 AI 染指，如果此前《星際爭霸II》當中戰勝人類選手還是算力的取勝，MuZero 雙掌互搏就能增長內力、左腳踩右腳就能騰云這次真的是一次巨大的沖擊，歡迎下方留言，下一個被 AI 虐哭的會是誰呢？

【參考資料】：

1.DeepMind 官方網站

2.論文鏈接

3.2019年預印版論文下載地址

4.開發者 Julian 的個人博客

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/242328.html

標籤：AI

上一篇：即將改變世界的力量：2021年最具影響力的科技預測

下一篇：裝上這 14 個插件后，PyCharm 真的是無敵的存在