DQN的代碼是仿照網上寫的,在更新神經網路這一塊我感覺有問題,但也不知道對不對,來找大佬求證一下

批量隨機采樣100個樣本,3個狀態空間,用SDG更新,stateBatch是100*3
輸出10個不同的動作,valueBatch 是10*100
問題就是采樣的樣本只含有一個動作,其余的value都是0,這樣訓練神經網路的時候,除了那一個動作,其余的不是都在往0訓練了

這一塊是不是有一點問題,應該采樣更多的樣本,還是應該把每一個動作的都采樣出來
如果是我理解錯的話,大佬給我點撥一下是什么吧
uj5u.com熱心網友回復:

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/226508.html
標籤:人工智能技術
上一篇:HystrixCommand注解的fallbackMethod的觸發條件
下一篇:YOLO V3 運行提示:RuntimeError: CUDA out of memory. Tried to allocate 18.00 MiB
