我正在創建一個基本的網格世界 RL 問題,我需要計算某些給定情節的回報。我目前有獎勵陣列,我想按元素將其與以下形式的串列相乘:
[gamma**0, gamma**1, gamma**2, ....]
為了得到:
[r_0*gamma**0, r_1*gamma**1, r_2*gamma**2, ....]
然后使用 np.sum() 獲得全部回報。
我怎樣才能完成第一步?我嘗試使用 Logspace,但它并不是我想要的(或者我做錯了)。
uj5u.com熱心網友回復:
如果示例 if like this for reward array and gamma is some value:
n = 20
reward = np.random.randint(0, 10, n)
gamma = 2
np.sum(reward * (gamma ** np.arange(n)))
轉載請註明出處,本文鏈接:https://www.uj5u.com/net/534910.html
