【零基础强化学习】200行代码教你实现基于Q-learning的迷宫找路_自兴人工智能教育qlearning走迷宫的源码-程序员宅基地

技术标签: python  深度学习  pytorch  人工智能  强化学习  


更多代码: gitee主页:https://gitee.com/GZHzzz
博客主页CSDN:https://blog.csdn.net/gzhzzaa

写在前面

show me code, no bb

"""
Reinforcement learning maze example.
Red rectangle:          explorer.
Black rectangles:       hells       [reward = -1].
Yellow bin circle:      paradise    [reward = +1].
All other states:       ground      [reward = 0].
"""
import numpy as np
import pandas as pd
import numpy as np
import time
import sys
import tkinter as tk
 
UNIT = 40   # pixels   像素
MAZE_H = 10  # grid height
MAZE_W = 10  # grid width
 
class Maze(tk.Tk, object):
    def __init__(self):
        super(Maze, self).__init__()
        self.action_space = ['u', 'd', 'l', 'r']                #行为
        self.n_actions = len(self.action_space)                  #行为数
        self.title('maze')
        self.geometry('{0}x{1}'.format(MAZE_H * UNIT, MAZE_H * UNIT))
        self._build_maze()
 
    def _build_maze(self):
        self.canvas = tk.Canvas(self, bg='white',
                           height=MAZE_H * UNIT,
                           width=MAZE_W * UNIT)
 
        # create grids
        for c in range(0, MAZE_W * UNIT, UNIT):
            x0, y0, x1, y1 = c, 0, c, MAZE_W * UNIT
            self.canvas.create_line(x0, y0, x1, y1)   #画一条从(x0,y0)到(x1,y1)的线
        for r in range(0, MAZE_H * UNIT, UNIT):
            x0, y0, x1, y1 = 0, r, MAZE_H * UNIT, r
            self.canvas.create_line(x0, y0, x1, y1)
 
        # create origin
        origin = np.array([20, 20])
 
        # hell            #画第一个黑色正方形
        hell1_center = origin + np.array([UNIT * 2, UNIT])
        self.hell1 = self.canvas.create_rectangle(
            hell1_center[0] - 15, hell1_center[1] - 15,
            hell1_center[0] + 15, hell1_center[1] + 15,
            fill='black')
        # hell            #画第二个黑色正方形
        hell2_center = origin + np.array([UNIT, UNIT * 2])
        self.hell2 = self.canvas.create_rectangle(
            hell2_center[0] - 15, hell2_center[1] - 15,
            hell2_center[0] + 15, hell2_center[1] + 15,
            fill='black')
 
        # create oval     #画黄色的正方形
        oval_center = origin + UNIT * 2
        self.oval = self.canvas.create_oval(
            oval_center[0] - 15, oval_center[1] - 15,
            oval_center[0] + 15, oval_center[1] + 15,
            fill='yellow')
 
        # create red rect   #画红色的正方形
        self.rect = self.canvas.create_rectangle(
            origin[0] - 15, origin[1] - 15,
            origin[0] + 15, origin[1] + 15,
            fill='red')
        # pack all
        self.canvas.pack()
 
    def reset(self):
        self.update()
        time.sleep(0.5)
        self.canvas.delete(self.rect)
        origin = np.array([20, 20])
        self.rect = self.canvas.create_rectangle(
            origin[0] - 15, origin[1] - 15,
            origin[0] + 15, origin[1] + 15,
            fill='red')
        # return observation
        return self.canvas.coords(self.rect)
 
    def step(self, action):
        s = self.canvas.coords(self.rect)
        base_action = np.array([0, 0])
        if action == 0:   # up
            if s[1] > UNIT:
                base_action[1] -= UNIT    #减40
        elif action == 1:   # down
            if s[1] < (MAZE_H - 1) * UNIT:
                base_action[1] += UNIT     #加40
        elif action == 2:   # right
            if s[0] < (MAZE_W - 1) * UNIT:
                base_action[0] += UNIT    #右移40
        elif action == 3:   # left
            if s[0] > UNIT:               #左移40
                base_action[0] -= UNIT
        self.canvas.move(self.rect, base_action[0], base_action[1])  # move agent
 
        s_ = self.canvas.coords(self.rect)  # next state
        # reward function
        if s_ == self.canvas.coords(self.oval):
            reward = 1
            done = True
            s_ = 'terminal'
        elif s_ in [self.canvas.coords(self.hell1), self.canvas.coords(self.hell2)]:
            reward = -1
            done = True
            s_ = 'terminal'
        else:
            reward = 0
            done = False
        return s_, reward, done
 
    def render(self):
        time.sleep(0.1)
        self.update()
 
class QLearningTable:
    def __init__(self, actions, learning_rate=0.01, reward_decay=0.9, e_greedy=0.9):
        '''
        :param actions:    行为
        :param learning_rate: 学习率, 来决定这次的误差有多少是要被学习的
        :param reward_decay: 是折扣因子,表示时间的远近对回报的影响程度,为0表示之看当前状态采取行动的reward。 
        :param e_greedy: 是用在决策上的一种策略, 比如 epsilon = 0.9 时, 就说明有90% 的情况我会按照 Q 表的最优值选择行为, 10% 的时间使用随机选行为
        '''
        self.actions = actions  # a list
        self.lr = learning_rate
        self.gamma = reward_decay
        self.epsilon = e_greedy
        self.q_table = pd.DataFrame(columns=self.actions, dtype=np.float64)
 
    def choose_action(self, observation):
        self.check_state_exist(observation)
        # action selection
        if np.random.uniform() < self.epsilon:
            # choose best action
            state_action = self.q_table.loc[observation, :]
            # some actions may have the same value, randomly choose on in these actions
            action = np.random.choice(state_action[state_action == np.max(state_action)].index)
        else:
            # choose random action
            action = np.random.choice(self.actions)
        return action
 
    def learn(self, s, a, r, s_):
        self.check_state_exist(s_)
        q_predict = self.q_table.loc[s, a]
        if s_ != 'terminal':
            q_target = r + self.gamma * self.q_table.loc[s_, :].max()  # next state is not terminal
        else:
            q_target = r  # next state is terminal
        self.q_table.loc[s, a] += self.lr * (q_target - q_predict)  # update
 
    def check_state_exist(self, state):
        if state not in self.q_table.index:
            # append new state to q table
            self.q_table = self.q_table.append(
                pd.Series(
                    [0]*len(self.actions),
                    index=self.q_table.columns,
                    name=state,
                )
            )
 
def update():
    for episode in range(100):
        # initial observation
        observation = env.reset()
        while True:
            # fresh env
            env.render()
            # RL choose action based on observation
            action = RL.choose_action(str(observation))
            # RL take action and get next observation and reward
            observation_, reward, done = env.step(action)
            # RL learn from this transition
            RL.learn(str(observation), action, reward, str(observation_))
            # swap observation
            observation = observation_
            # break while loop when end of this episode
            if done:
                break
    print(RL.q_table)
    RL.q_table.to_csv("./1.csv")
    # end of game
    print('game over')
    env.destroy()
if __name__ == "__main__":
    env = Maze()
    RL = QLearningTable(actions=list(range(env.n_actions)))
    # print(RL.q_table)
    env.after(100, update)
    # print("hahah")
    # print(RL.q_table)
    env.mainloop()
  • 代码全部亲自跑过,你懂的!

结果展示

在这里插入图片描述

写在最后

十年磨剑,与君共勉!
更多代码gitee主页:https://gitee.com/GZHzzz
博客主页CSDN:https://blog.csdn.net/gzhzzaa

  • Fighting!

基于pytorch的经典模型基于pytorch的典型智能体模型
强化学习经典论文强化学习经典论文
在这里插入图片描述

while True:
	Go life

在这里插入图片描述

谢谢点赞交流!(❁´◡`❁)

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/gzhzzaa/article/details/122465876

智能推荐

python networkx如何抽取子图_如何使用networkx从给定图中提取所有可能的诱导子图...-程序员宅基地

文章浏览阅读650次。对于在这里遇到同样问题但节点太多的人来说,这里对@Hooked的答案没有几个简单的改进(尽管我相信有更好的解决方案,正如@Hooked在评论中提到的那样,这只是一个快速的复制粘贴修复程序,适用于与我有相同原因并有缩放问题的人)1)igraph比networkx更具规模2)我们只能取一个节点的邻域来消除大多数不必要的组合例如,如果我们在较大的network中寻找motif(两个igraph对象)mo..._networkx motif

用OCC+VS+Qt创建并显示一个几何_occ opengldriver-程序员宅基地

文章浏览阅读1.7k次,点赞2次,收藏25次。用OCC+VS+Qt创建并显示一个几何_occ opengldriver

Unity学习心得_unity课程总结心得-程序员宅基地

文章浏览阅读4.2k次,点赞2次,收藏12次。Unity学习心得第一个项目 Roll A Ball1.基本模型和场景操作双击Cube,表示聚焦(在Scene场景中)或者按下 F键Persp:透视视图 (会产生近大远小) ISO:平行视野(不会产生近大远小的效果)2.世界坐标系和局部坐标系:世界坐标:以世界原点为中心的坐标 局部坐标:以父节点的中心_unity课程总结心得

maven的下载与安装教程(超详细)_maven安装-程序员宅基地

文章浏览阅读10w+次,点赞432次,收藏1.1k次。前言本篇文章是基于win10系统下载安装Maven的教程。一、 Maven介绍1. 什么是Maven​ Maven是一个跨平台的项目管理工具。作为Apache组织的一个颇为成功的开源项目,其主要服务于基于Java平台的项目创建,依赖管理和项目信息管理。maven是Apache的顶级项目,解释为“专家,内行”,它是一个项目管理的工具,maven自身是纯java开发的,可以使用maven对java项目进行构建、依赖管理。2. Maven的作用依赖管理依赖指的就是是 我们项目中需要使用的第三方_maven安装

研究生如何读文献 写论文 发文章 毕业论文_研究生一天读多少文献-程序员宅基地

文章浏览阅读2.1k次,点赞3次,收藏13次。研究生论文写作步骤1. 先看综述,后看论著。看综述搞清概念,看论著掌握方法。2. 早动手在师兄师姐离开之前学会关键技术。3. 多数文章看摘要,少数文章看全文。掌握了一点查全文的技巧,往往会以搞到全文为乐,以至于没有时间看文章的内容,更不屑于看摘要。真正有用的全文并不多,过分追求全文是浪费,不可走极端。当然只看摘要也是不对的。4. 集中时间看文献,看过总会遗忘。看文献的时间越分散_研究生一天读多少文献

微光app电脑版_智米电暖器智能版1S体验:全面领跑AIoT、将智能生活进行到底-程序员宅基地

文章浏览阅读547次。【科技犬体验】2019年10月15日,智米正式推出了旗下电暖器新品——智米电暖器1S和智米电暖器智能版1S对于没有集中供暖的长江中下游地区居民而言,电暖器是不折不扣的"保命神器"。而在深秋的北方,昼夜温差较大,这种时候使用灵活、易于搬运的电暖器也成为更加明智的选择。在北方每年的冬季,室内温度就直接关系着大家在家的舒适度,而对于室内温度不达标的用户,购买电暖器就成为几乎唯一的选择。科技犬已经入手智米..._智米电暖器智能版app

随便推点

国外优秀的UI设计资源库_breezy wu ui-程序员宅基地

文章浏览阅读1k次。网站设计或者说UI设计对于Web上的运用是非常的关键,一个站做得好不好,能不能吸引人的眼球,设计占了不低的地位,但话又说回来,Web前端人 员又有多少人是设计专业毕业,具有这方面的能力呢?像我这样没有设计艺术细胞的页面仔,有时候为了一个效果苦于无法整出来,唯一的办法就是去搜索寻找相关 的设计资源网站,找到适合自己的UI效果。经过平时的积累与搜集,我整理了一个UI设计以及Web设计相关的资源网站,希_breezy wu ui

codeblocks调试问题--单步调试遇到breakpoint不停---不能单步调试--运行按钮是灰色但是没有dos窗口_codeblockdebug是灰的-程序员宅基地

文章浏览阅读5.3k次,点赞6次,收藏10次。今天晚上调试的时候可能不小心改了设置,还是其它原因,codeblocks突然遇到breakpoint不停了,然后百度了一下,大部分是说project创建的问题,感觉和自己的问题不同,我的问题是所有的project都不能单步调试。然后在seting-&gt;debug设置中找了一会都没有找到相应的设置,然后我就到debug中找到了debug-&gt;active debuggers-&gt;gdb/..._codeblockdebug是灰的

遇到svg 图标颜色无法修改怎么处理_svg cannot be converted to a uicolor-程序员宅基地

文章浏览阅读1.2k次。当项目里引入svg图标时,有的时候会遇到无法修改其颜色的问题首先在编辑其中打开svg文件在path中找到文件中fill属性,删除即可path中fill属性是无法修改的_svg cannot be converted to a uicolor

GSM劫持+短信嗅探 “半夜盗刷”-程序员宅基地

文章浏览阅读5.1k次,点赞2次,收藏21次。【PConline资讯】“一觉醒来,手机里多了上百条验证码,而账户被刷光还背上了贷款”——近期犯罪分子利用“GSM劫持+短信嗅探”的方式盗刷网友账户的事件成为网络热点。那么,该如何防范这种短信嗅探犯罪呢?安全专家指出,最简单的一招就是睡觉前关机,手机关机后就没有了信号,短信嗅探设备就无法获取到你的手机号。在主流App中,许多账户登录及资金操作都可以通过手机号码加短信验证码的方式实现,对于用...

Docker删除容器命令_docker delete-程序员宅基地

文章浏览阅读2.6w次,点赞4次,收藏25次。删除容器 之前要先docker stop 容器1. 删除指定容器docker rm -f <containerid>12. 删除未启动成功的容器docker rm $(docker ps -a|grep Created|awk '{print $1}')或者docker rm $(docker ps -qf status=created)1233. 删除退出状态的容器docker rm $(docker ps -a|grep Exited|awk '{print $1}_docker delete

乌龙(一)ntp对时_ntp对时 时区-程序员宅基地

文章浏览阅读107次。emmm…今天新搭了一套虚拟机(安装时一步过了 啥也没配置),操作时发现系统时间一直不对,于是安装了ntp跟阿里云等时钟源对过,发现一对时系统就变成了昨天,我把系统时间强制改为了现在,再次对时,时间又回退到昨天,最后发现时区选错了,选成了PST。解决方法cp -f /usr/share/zoneinfo/Asia/Shanghai /etc/localtime..._ntp对时 时区