python价值观测试程序例子_PyBrains学习迷宫的例子。国家价值观与全球政策
生活随笔
收集整理的這篇文章主要介紹了
python价值观测试程序例子_PyBrains学习迷宫的例子。国家价值观与全球政策
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
現在我添加了另一個約束-通過在迷宮.py現在我在1000次跑步后得到了這種行為,每次跑步有200次互動:
現在哪種方式有意義-機器人試圖從另一邊繞墻,避開狀態(1,7)
所以,我得到了奇怪的結果,因為特工過去總是從隨機位置開始,這也包括懲罰狀態
編輯:
另一點是,如果希望隨機生成代理,那么確保它不是在可懲罰狀態下生成的def _freePos(self):
""" produce a list of the free positions. """
res = []
for i, row in enumerate(self.mazeTable):
for j, p in enumerate(row):
if p == False:
if self.punishing_states != None:
if (i, j) not in self.punishing_states:
res.append((i, j))
else:
res.append((i, j))
return res
而且,table.params.reshape(81,4).max(1).reshape(9,9)似乎會從value函數返回每個狀態的值
總結
以上是生活随笔為你收集整理的python价值观测试程序例子_PyBrains学习迷宫的例子。国家价值观与全球政策的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: VS2015彻底卸载干净
- 下一篇: 中国大学MOOC 视频字幕获取及处理方法