技术标签: python 深度学习 pytorch 人工智能 强化学习
"""
Reinforcement learning maze example.
Red rectangle: explorer.
Black rectangles: hells [reward = -1].
Yellow bin circle: paradise [reward = +1].
All other states: ground [reward = 0].
"""
import numpy as np
import pandas as pd
import numpy as np
import time
import sys
import tkinter as tk
UNIT = 40 # pixels 像素
MAZE_H = 10 # grid height
MAZE_W = 10 # grid width
class Maze(tk.Tk, object):
def __init__(self):
super(Maze, self).__init__()
self.action_space = ['u', 'd', 'l', 'r'] #行为
self.n_actions = len(self.action_space) #行为数
self.title('maze')
self.geometry('{0}x{1}'.format(MAZE_H * UNIT, MAZE_H * UNIT))
self._build_maze()
def _build_maze(self):
self.canvas = tk.Canvas(self, bg='white',
height=MAZE_H * UNIT,
width=MAZE_W * UNIT)
# create grids
for c in range(0, MAZE_W * UNIT, UNIT):
x0, y0, x1, y1 = c, 0, c, MAZE_W * UNIT
self.canvas.create_line(x0, y0, x1, y1) #画一条从(x0,y0)到(x1,y1)的线
for r in range(0, MAZE_H * UNIT, UNIT):
x0, y0, x1, y1 = 0, r, MAZE_H * UNIT, r
self.canvas.create_line(x0, y0, x1, y1)
# create origin
origin = np.array([20, 20])
# hell #画第一个黑色正方形
hell1_center = origin + np.array([UNIT * 2, UNIT])
self.hell1 = self.canvas.create_rectangle(
hell1_center[0] - 15, hell1_center[1] - 15,
hell1_center[0] + 15, hell1_center[1] + 15,
fill='black')
# hell #画第二个黑色正方形
hell2_center = origin + np.array([UNIT, UNIT * 2])
self.hell2 = self.canvas.create_rectangle(
hell2_center[0] - 15, hell2_center[1] - 15,
hell2_center[0] + 15, hell2_center[1] + 15,
fill='black')
# create oval #画黄色的正方形
oval_center = origin + UNIT * 2
self.oval = self.canvas.create_oval(
oval_center[0] - 15, oval_center[1] - 15,
oval_center[0] + 15, oval_center[1] + 15,
fill='yellow')
# create red rect #画红色的正方形
self.rect = self.canvas.create_rectangle(
origin[0] - 15, origin[1] - 15,
origin[0] + 15, origin[1] + 15,
fill='red')
# pack all
self.canvas.pack()
def reset(self):
self.update()
time.sleep(0.5)
self.canvas.delete(self.rect)
origin = np.array([20, 20])
self.rect = self.canvas.create_rectangle(
origin[0] - 15, origin[1] - 15,
origin[0] + 15, origin[1] + 15,
fill='red')
# return observation
return self.canvas.coords(self.rect)
def step(self, action):
s = self.canvas.coords(self.rect)
base_action = np.array([0, 0])
if action == 0: # up
if s[1] > UNIT:
base_action[1] -= UNIT #减40
elif action == 1: # down
if s[1] < (MAZE_H - 1) * UNIT:
base_action[1] += UNIT #加40
elif action == 2: # right
if s[0] < (MAZE_W - 1) * UNIT:
base_action[0] += UNIT #右移40
elif action == 3: # left
if s[0] > UNIT: #左移40
base_action[0] -= UNIT
self.canvas.move(self.rect, base_action[0], base_action[1]) # move agent
s_ = self.canvas.coords(self.rect) # next state
# reward function
if s_ == self.canvas.coords(self.oval):
reward = 1
done = True
s_ = 'terminal'
elif s_ in [self.canvas.coords(self.hell1), self.canvas.coords(self.hell2)]:
reward = -1
done = True
s_ = 'terminal'
else:
reward = 0
done = False
return s_, reward, done
def render(self):
time.sleep(0.1)
self.update()
class QLearningTable:
def __init__(self, actions, learning_rate=0.01, reward_decay=0.9, e_greedy=0.9):
'''
:param actions: 行为
:param learning_rate: 学习率, 来决定这次的误差有多少是要被学习的
:param reward_decay: 是折扣因子,表示时间的远近对回报的影响程度,为0表示之看当前状态采取行动的reward。
:param e_greedy: 是用在决策上的一种策略, 比如 epsilon = 0.9 时, 就说明有90% 的情况我会按照 Q 表的最优值选择行为, 10% 的时间使用随机选行为
'''
self.actions = actions # a list
self.lr = learning_rate
self.gamma = reward_decay
self.epsilon = e_greedy
self.q_table = pd.DataFrame(columns=self.actions, dtype=np.float64)
def choose_action(self, observation):
self.check_state_exist(observation)
# action selection
if np.random.uniform() < self.epsilon:
# choose best action
state_action = self.q_table.loc[observation, :]
# some actions may have the same value, randomly choose on in these actions
action = np.random.choice(state_action[state_action == np.max(state_action)].index)
else:
# choose random action
action = np.random.choice(self.actions)
return action
def learn(self, s, a, r, s_):
self.check_state_exist(s_)
q_predict = self.q_table.loc[s, a]
if s_ != 'terminal':
q_target = r + self.gamma * self.q_table.loc[s_, :].max() # next state is not terminal
else:
q_target = r # next state is terminal
self.q_table.loc[s, a] += self.lr * (q_target - q_predict) # update
def check_state_exist(self, state):
if state not in self.q_table.index:
# append new state to q table
self.q_table = self.q_table.append(
pd.Series(
[0]*len(self.actions),
index=self.q_table.columns,
name=state,
)
)
def update():
for episode in range(100):
# initial observation
observation = env.reset()
while True:
# fresh env
env.render()
# RL choose action based on observation
action = RL.choose_action(str(observation))
# RL take action and get next observation and reward
observation_, reward, done = env.step(action)
# RL learn from this transition
RL.learn(str(observation), action, reward, str(observation_))
# swap observation
observation = observation_
# break while loop when end of this episode
if done:
break
print(RL.q_table)
RL.q_table.to_csv("./1.csv")
# end of game
print('game over')
env.destroy()
if __name__ == "__main__":
env = Maze()
RL = QLearningTable(actions=list(range(env.n_actions)))
# print(RL.q_table)
env.after(100, update)
# print("hahah")
# print(RL.q_table)
env.mainloop()
十年磨剑,与君共勉!
更多代码:gitee主页:https://gitee.com/GZHzzz
博客主页:CSDN:https://blog.csdn.net/gzhzzaa
基于pytorch的经典模型:基于pytorch的典型智能体模型
强化学习经典论文:强化学习经典论文
while True:
Go life
文章浏览阅读650次。对于在这里遇到同样问题但节点太多的人来说,这里对@Hooked的答案没有几个简单的改进(尽管我相信有更好的解决方案,正如@Hooked在评论中提到的那样,这只是一个快速的复制粘贴修复程序,适用于与我有相同原因并有缩放问题的人)1)igraph比networkx更具规模2)我们只能取一个节点的邻域来消除大多数不必要的组合例如,如果我们在较大的network中寻找motif(两个igraph对象)mo..._networkx motif
文章浏览阅读1.7k次,点赞2次,收藏25次。用OCC+VS+Qt创建并显示一个几何_occ opengldriver
文章浏览阅读4.2k次,点赞2次,收藏12次。Unity学习心得第一个项目 Roll A Ball1.基本模型和场景操作双击Cube,表示聚焦(在Scene场景中)或者按下 F键Persp:透视视图 (会产生近大远小) ISO:平行视野(不会产生近大远小的效果)2.世界坐标系和局部坐标系:世界坐标:以世界原点为中心的坐标 局部坐标:以父节点的中心_unity课程总结心得
文章浏览阅读10w+次,点赞432次,收藏1.1k次。前言本篇文章是基于win10系统下载安装Maven的教程。一、 Maven介绍1. 什么是Maven Maven是一个跨平台的项目管理工具。作为Apache组织的一个颇为成功的开源项目,其主要服务于基于Java平台的项目创建,依赖管理和项目信息管理。maven是Apache的顶级项目,解释为“专家,内行”,它是一个项目管理的工具,maven自身是纯java开发的,可以使用maven对java项目进行构建、依赖管理。2. Maven的作用依赖管理依赖指的就是是 我们项目中需要使用的第三方_maven安装
文章浏览阅读2.1k次,点赞3次,收藏13次。研究生论文写作步骤1. 先看综述,后看论著。看综述搞清概念,看论著掌握方法。2. 早动手在师兄师姐离开之前学会关键技术。3. 多数文章看摘要,少数文章看全文。掌握了一点查全文的技巧,往往会以搞到全文为乐,以至于没有时间看文章的内容,更不屑于看摘要。真正有用的全文并不多,过分追求全文是浪费,不可走极端。当然只看摘要也是不对的。4. 集中时间看文献,看过总会遗忘。看文献的时间越分散_研究生一天读多少文献
文章浏览阅读547次。【科技犬体验】2019年10月15日,智米正式推出了旗下电暖器新品——智米电暖器1S和智米电暖器智能版1S对于没有集中供暖的长江中下游地区居民而言,电暖器是不折不扣的"保命神器"。而在深秋的北方,昼夜温差较大,这种时候使用灵活、易于搬运的电暖器也成为更加明智的选择。在北方每年的冬季,室内温度就直接关系着大家在家的舒适度,而对于室内温度不达标的用户,购买电暖器就成为几乎唯一的选择。科技犬已经入手智米..._智米电暖器智能版app
文章浏览阅读1k次。网站设计或者说UI设计对于Web上的运用是非常的关键,一个站做得好不好,能不能吸引人的眼球,设计占了不低的地位,但话又说回来,Web前端人 员又有多少人是设计专业毕业,具有这方面的能力呢?像我这样没有设计艺术细胞的页面仔,有时候为了一个效果苦于无法整出来,唯一的办法就是去搜索寻找相关 的设计资源网站,找到适合自己的UI效果。经过平时的积累与搜集,我整理了一个UI设计以及Web设计相关的资源网站,希_breezy wu ui
文章浏览阅读5.3k次,点赞6次,收藏10次。今天晚上调试的时候可能不小心改了设置,还是其它原因,codeblocks突然遇到breakpoint不停了,然后百度了一下,大部分是说project创建的问题,感觉和自己的问题不同,我的问题是所有的project都不能单步调试。然后在seting->debug设置中找了一会都没有找到相应的设置,然后我就到debug中找到了debug->active debuggers->gdb/..._codeblockdebug是灰的
文章浏览阅读1.2k次。当项目里引入svg图标时,有的时候会遇到无法修改其颜色的问题首先在编辑其中打开svg文件在path中找到文件中fill属性,删除即可path中fill属性是无法修改的_svg cannot be converted to a uicolor
文章浏览阅读5.1k次,点赞2次,收藏21次。【PConline资讯】“一觉醒来,手机里多了上百条验证码,而账户被刷光还背上了贷款”——近期犯罪分子利用“GSM劫持+短信嗅探”的方式盗刷网友账户的事件成为网络热点。那么,该如何防范这种短信嗅探犯罪呢?安全专家指出,最简单的一招就是睡觉前关机,手机关机后就没有了信号,短信嗅探设备就无法获取到你的手机号。在主流App中,许多账户登录及资金操作都可以通过手机号码加短信验证码的方式实现,对于用...
文章浏览阅读2.6w次,点赞4次,收藏25次。删除容器 之前要先docker stop 容器1. 删除指定容器docker rm -f <containerid>12. 删除未启动成功的容器docker rm $(docker ps -a|grep Created|awk '{print $1}')或者docker rm $(docker ps -qf status=created)1233. 删除退出状态的容器docker rm $(docker ps -a|grep Exited|awk '{print $1}_docker delete
文章浏览阅读107次。emmm…今天新搭了一套虚拟机(安装时一步过了 啥也没配置),操作时发现系统时间一直不对,于是安装了ntp跟阿里云等时钟源对过,发现一对时系统就变成了昨天,我把系统时间强制改为了现在,再次对时,时间又回退到昨天,最后发现时区选错了,选成了PST。解决方法cp -f /usr/share/zoneinfo/Asia/Shanghai /etc/localtime..._ntp对时 时区