作者|Robin White
編譯|Flin
來源|towardsdatascience

我最喜歡的YouTuber之一,CodeBullet,曾經嘗試創建一個乒乓球 AI來統治所有人,可悲的是,他遇到了麻煩,不是因為他沒有能力,而是我認為他當時的經驗對計算機視覺沒有太大影響,他絕對是個好笑的人,如果你考慮閱讀這篇文章的其余部分,我強烈建議你觀看他的視頻,同樣,他是個天才,在這里看他的視頻,
- https://www.youtube.com/watch?v=tcymhYbRvw8&
這似乎是一個非常有趣且簡單的任務,所以我也想嘗試一下,在這篇文章中,我將概述一些我考慮過的因素,如果你希望在任何類似的專案上作業,這些因素可能會有所幫助,并且我想我會嘗試其中的一些其他作業,因此,如果你喜歡這種型別的事情,可以關注我,
使用計算機視覺的好處是,我可以使用已經構建的游戲并處理影像,話雖如此,我們將使用與ponggame.org上使用的那個與CodeBullet相同的游戲版本,它還具有2人模式,因此我可以與自己的AI對抗;我做到了,這確實很難……
- https://www.ponggame.org/
捕捉螢屏
第一件事就是捕捉螢屏,我想確保我的幀速率盡可能快,為此我發現MSS是一個很棒的python包,有了這個,我很容易達到60幀/秒的最高速度,與 PIL 相比,我只能得到大約20幀每秒,它以 numpy 陣列的形式回傳,
- MSS:https://pypi.org/project/mss/
Paddle detection
為了簡單起見,我們需要定義paddle 的位置,這可以用幾種不同的方法來完成,但我認為最明顯的是對每個Paddle的區域進行遮罩,然后運行連接的組件來找到Paddle物件,下面是一段代碼:
def get_objects_in_masked_region(img, vertices, connectivity = 8):
''':return connected components with stats in masked region
[0] retval number of total labels 0 is background
[1] labels image
[2] stats[0] leftmostx, [1] topmosty, [2] horizontal size, [3] vertical size, [4] area
[3] centroids
'''
mask = np.zeros_like(img)
# fill the mask
cv2.fillPoly(mask, [vertices], 255)
# now only show the area that is the mask
mask = cv2.bitwise_and(img, mask)
conn = cv2.connectedComponentsWithStats(mask, connectivity, cv2.CV_16U)
return conn
在上面,“vertices”只是定義遮罩區域的坐標串列,一旦在每個區域內有了物件,我就可以得到它們的質心位置或邊界框,需要注意的一點是OpenCV將背景作為任何連接的組件串列中的第0個物件,因此在本例中,我總是獲取第二大的物件,結果如下——右邊綠色質心的球拍是玩家 / 即將成為人工智能控制的球拍,

移動paddle
現在我們有了輸出,我們需要一個輸入,為此,我求助于一個有用的包和其他人的代碼(http://stackoverflow.com/questions/14489013/simulate-python-keypresses-for-controlling-a-game) ,
它使用ctypes來模擬鍵盤按下,在這種情況下,游戲是用“k”和“m”鍵來玩的,我這里有掃描碼(http://www.gamespp.com/directx/directInputKeyboardScanCodes.html),在測驗了它只是隨機上下移動后,我們就可以開始跟蹤了,
乒乓球檢測
下一步是識別并跟蹤乒乓球,同樣,這可以用幾種方法來處理——其中一種可能是通過使用模板進行物件檢測,然而,我再次使用了連接的組件和物件屬性,即乒乓球的區域,因為它是唯一具有尺寸的物件,
我知道每當乒乓球穿過或碰到其他白色物體時,我都會遇到問題,但我也認為只要我能在大多數時間里追蹤到它,這一切都沒問題,畢竟,它是直線運動的,如果你看下面的視頻,你會看到標記乒乓球的紅色圓圈是如何閃爍的,這是因為它只在每2幀中找到一個,在60幀/秒時,這并不重要,

反彈預測的光線投射
在這一點上,我們已經有一個可作業的人工智能,如果我們只是移動球員的球拍,使其處于與乒乓球相同的y軸位置,它的效果相當不錯,然而,當乒乓球得到良好的反彈時,它確實會遇到問題,球拍太慢了,跟不上,需要預測乒乓球的位置,而不是僅僅移動到當前的位置,這已經在上面的剪輯中實作了,下面是兩種方法的比較,

差別并不大,但如果選擇了正確的人工智能,這絕對是一場更穩定的勝利,為此,我首先為乒乓球創建了一個位置串列,為了公平起見,我把這個串列的長度控制在5個,基本上可以做到,串列不要太長,否則要花更長的時間才能發現它改變了方向,在得到位置串列后,我使用簡單的矢量平均法來平滑并得到方向矢量——如綠色箭頭所示,這也被標準化成一個單位向量,然后乘以一個長度以方便可視化,
投射光線只是這個的延伸——使前向投影變長,然后我檢查了未來的位置是否在頂部和底部區域的邊界之外,如果是這樣的話,它只是將位置投影回游戲區域,對于左側和右側,它計算出與paddle的x位置相交的位置,并將x和y位置固定到該點,這樣可以確保paddle指向正確的位置,如果沒有這一點,它通常會走得太遠,下面是定義光線的代碼,該光線可以預測乒乓球的未來位置:
def pong_ray(pong_pos, dir_vec, l_paddle, r_paddle, boundaries, steps = 250):
future_pts_list = []
for i in range(steps):
x_tmp = int(i * dir_vect[0] + pong_pos[0])
y_tmp = int(i * dir_vect[1] + pong_pos[1])
if y_tmp > boundaries[3]: #bottom
y_end = int(2*boundaries[3] - y_tmp)
x_end = x_tmp
elif y_tmp < boundaries[2]: #top
y_end = int(-1*y_tmp)
x_end = x_tmp
else:
y_end = y_tmp
##stop where paddle can reach
if x_tmp > r_paddle[0]: #right
x_end = int(boundaries[1])
y_end = int(pong_pos[1] + ((boundaries[1] - pong_pos[0])/dir_vec[0])*dir_vec[1])
elif x_tmp < boundaries[0]: #left
x_end = int(boundaries[0])
y_end = int(pong_pos[1] + ((boundaries[0] - pong_pos[0]) / dir_vec[0]) * dir_vec[1])
else:
x_end = x_tmp
end_pos = (x_end, y_end)
future_pts_list.append(end_pos)
return future_pts_list
在上面,也許不太明顯的計算方法是確定paddle對目標的左或右位置的截距,我們基本上是通過相似三角形來實作的,圖片和方程如下所示,我們知道在邊界中給定的paddle的x位置的截距,然后我們可以計算出乒乓球將移動多遠,并將其添加到當前的y位置,

paddle雖然看起來筆直,但實際上有一個彎曲的反彈面,也就是說,如果你用球拍向兩端擊球,球會反彈,就像球拍有角度一樣,因此,我允許球拍擊中邊緣,這增加了人工智能的攻擊性,使乒乓球四處飛舞,
結論
盡管是為這種特定的乒乓球實作而設計的,但是相同的概念和代碼也可以用于任何版本——只需要改變一些預處理步驟,當然,另一種方法是通過強化學習或簡單的conv-net使用機器學習,但我喜歡這種經典方法;至少在這種情況下,我不需要健壯的通用性或困難的影像處理步驟,正如我提到的,這個版本的乒乓球是2人,老實說我無法打敗我自己的AI…

如果你在這篇文章的任何部分提供了一些有用的資訊或只是一點靈感,請關注我來了解更多,
你可以在我的github上找到源代碼,
- https://github.com/robintwhite
原文鏈接:https://towardsdatascience.com/computer-vision-and-the-ultimate-pong-ai-e6d70153fc45
歡迎關注磐創AI博客站:
http://panchuang.net/
sklearn機器學習中文官方檔案:
http://sklearn123.com/
歡迎關注磐創博客資源匯總站:
http://docs.panchuang.net/
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/82487.html
標籤:其他
