利用PyTorch实现爬山算法

2023-04-16 原文

0. 前言

在随机搜索策略中，每个回合都是独立的。因此，随机搜索中的所有回合都可以并行运行，最终选择能够得到最佳性能的权重。我们还通过绘制总奖励随回合增加的变化情况进行验证，可以看到奖励并没有上升的趋势。在本节中，我们将实现爬山算法 (hill-climbing algorithm)，以将在一个回合中学习到的知识转移到下一个回合中。

1. 使用 PyTorch 实现爬山算法

1.1 爬山算法简介

在爬山算法中，我们同样从随机选择的权重开始。但是，对于每个回合，我们都会为权重添加一些噪声数据。如果总奖励有所改善，我们将使用新的权重来更新原权重；否则，将保持原权重。通过这种方法，随着回合的增加，权重也会逐步修改，而不是在每个回合中随机改变。

1.2 使用爬山算法进行 CartPole 游戏

接下来，我们使用 PyTorch 实现爬山算法。首先，导入所需的包，创建一个 CartPole 环境实例，并计算状态空间和动作空间的尺寸。重用 run_episode 函数，其会根据给定权重，模拟一个回合后返回总奖励：

import gym
import torch
from matplotlib import pyplot as plt
env = gym.make('CartPole-v0')

n_state = env.observation_space.shape[0]
print(n_state)

n_action = env.action_space.n
print(n_action)

def run_episode(env, weight):
    state = env.reset()
    total_reward = 0
    is_done = False
    while not is_done:
        state = torch.from_numpy(state).float()
        action = torch.argmax(torch.matmul(state, weight))
        state, reward, is_done, _ = env.step(action.item())
        total_reward  = reward
    return total_reward

模拟 1000 个回合，并初始化变量用于跟踪最佳的总奖励以及相应的权重。同时，初始化一个空列表用于记录每个回合的总奖励：

n_episode = 1000
best_total_reward = 0
best_weight = torch.randn(n_state, n_action)

total_rewards = []

正如以上所述，我们在每个回合中为权重添加一些噪音，为了使噪声不会覆盖原权重，我们还将对噪声进行缩放，使用 0.01 作为噪声缩放因子：

noise_scale = 0.01

然后，就可以运行 run_episode 函数进行模拟。

随机选择初始权重之后，在每个回合中执行以下操作：

为权重增加随机噪音
智能体根据线性映射采取动作
回合终止并返回总奖励
如果当前奖励大于到目前为止获得的最佳奖励，更新最佳奖励和权重；否则，最佳奖励和权重将保持不变
记录每回合的总奖励

for e in range(n_episode):
    weight = best_weight   noise_scale * torch.rand(n_state, n_action)
    total_reward = run_episode(env, weight)
    if total_reward >= best_total_reward:
        best_total_reward = total_reward
        best_weight = weight
    total_rewards.append(total_reward)
print('Episode {}: {}'.format(e   1, total_reward))

计算使用爬山算法所获得的平均总奖励：

print('Average total reward over {} episode: {}'.format(n_episode, sum(total_rewards) / n_episode))
# Average total reward over 1000 episode: 62.421

2. 改进爬山算法

为了评估使用爬山算法的训练效果，多次重复训练过程，使用循环语句多次执行爬山算法，可以观察到平均总奖励的波动变化较大：

for i in range(10):
    best_total_reward = 0
    best_weight = torch.randn(n_state, n_action)
    total_rewards = []
    for e in range(n_episode):
        weight = best_weight   noise_scale * torch.rand(n_state, n_action)
        total_reward = run_episode(env, weight)
        if total_reward >= best_total_reward:
            best_total_reward = total_reward
            best_weight = weight
        total_rewards.append(total_reward)
        # print('Episode {}: {}'.format(e   1, total_reward))

print('Average total reward over {} episode: {}'.format(n_episode, sum(total_rewards) / n_episode))

以下是我们运行10次后得到的结果：

Average total reward over 1000 episode: 200.0
Average total reward over 1000 episode: 9.846
Average total reward over 1000 episode: 82.1
Average total reward over 1000 episode: 9.198
Average total reward over 1000 episode: 9.491
Average total reward over 1000 episode: 9.073
Average total reward over 1000 episode: 149.421
Average total reward over 1000 episode: 49.584
Average total reward over 1000 episode: 8.827
Average total reward over 1000 episode: 9.369

产生如此差异的原因是什么呢？如果初始权重较差，则添加的少量噪声只会小范围改变权重，且对改善性能几乎没有影响，导致算法收敛性能不佳。另一方面，如果初始权重较为合适，则添加大量噪声可能会大幅度改变权重，使得权重偏离最佳权重并破坏算法性能。为了使爬山算法的训练更稳定，我们可以使用自适应噪声缩放因子，类似于梯度下降中的自适应学习率，随着模型性能的提升改变噪声缩放因子的大小。

为了使噪声具有自适应性，执行以下操作：

指定初始噪声缩放因子
如果回合中的模型性能有所改善，则减小噪声缩放因子，本节中，每次将噪声缩放因子减小为原来的一半，同时设置缩放因子最小值为 0.0001
而如果回合中中的模型性能下降，则增大噪声缩放因子，本节中，每次将噪声缩放因子增大为原来的 2 倍，同时设置缩放因子最大值为 2

noise_scale = 0.01
best_total_reward = 0
best_weight = torch.randn(n_state, n_action)
total_rewards = []
for e in range(n_episode):
    weight = best_weight   noise_scale * torch.rand(n_state, n_action)
    total_reward = run_episode(env, weight)
    if total_reward >= best_total_reward:
        best_total_reward = total_reward
        best_weight = weight
        noise_scale = max(noise_scale/2, 1e-4)
    else:
        noise_scale = min(noise_scale*2, 2)
    total_rewards.append(total_reward)
    print('Episode {}: {}'.format(e   1, total_reward))

可以看到，奖励随着回合的增加而增加。训练过程中，当一个回合中可以运行 200 个步骤时，模型的性能可以得到保持，平均总奖励也得到了极大的提升：

print('Average total reward over {} episode: {}'.format(n_episode, sum(total_rewards) / n_episode))
# Average total reward over 1000 episode: 196.28

接下来，为了更加直观的观察，我们绘制每个回合的总奖励的变化情况，如下所示，可以看到总奖励有明显的上升趋势，然后稳定在最大值处：

plt.plot(total_rewards, label='search')
plt.xlabel('episode')
plt.ylabel('total_reward')
plt.legend()
plt.show()

多次运行训练过程过程，可以发现与采用恒定噪声缩放因子进行学习相比，自适应噪声缩放因子可以得到稳定的训练结果。

接下来，我们测试所得到的模型策略在 1000 个新回合中的性能表现：

n_episode_eval = 1000
total_rewards_eval = []
for episode in range(n_episode_eval):
    total_reward = run_episode(env, best_weight)
    print('Episode {}: {}'.format(episode 1, total_reward))
    total_rewards_eval.append(total_reward)

print('Average total reward over {} episode: {}'.format(n_episode_eval, sum(total_rewards_eval)/n_episode_eval))
# Average total reward over 1000 episode: 199.98

可以看到在测试阶段的平均总奖励接近 200，即 CartPole 环境中可以获得的最高奖励。通过多次运行评估，可以获得非常一致的结果。

到此这篇关于利用PyTorch实现爬山算法的文章就介绍到这了,更多相关PyTorch爬山算法内容请搜索Devmax以前的文章或继续浏览下面的相关文章希望大家以后多多支持Devmax！

利用PyTorch实现爬山算法的更多相关文章

用Swift实现MD5算法&引入第三方类库MBProgressHUD

之前项目里面是用objc写的MD5加密算法，最近在用swift重写以前的项目，遇到了这个问题。顺带解决掉的还有如何引入第三方的类库，例如MBProgressHUD等一些特别好的控件解决的方法其实是用objc和swift混合编程的方法，利用Bridging-header文件。你可以简单的理解为在一个用swift语言开发的工程中，引入objective-c文件是需要做的一个串联文件，好比架设了一个桥，让swift中也可以调用objective-c的类库和frame等等。
swift排序算法和数据结构

vararrayNumber:[Int]=[2,4,216)">6,216)">7,216)">3,216)">8,216)">1]//冒泡排序funcmaopao->[Int]{forvari=0;i
swift - 函数指针的应用 - 避免重复算法

=nil;})}privatefuncsearch(selector:(Employee->Bool))->[Employee]{varresults=[Employee]();foreinemployees{if(selector(e)){results.append(e);}}returnresults;}}
如何用 Swift 实现 A* 寻路算法

本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至dio@foxmail.com举报，一经查实，本站将立刻删除。
swift算法实践1

在通常的表达式中，二元运算符总是置于与之相关的两个运算对象之间，所以，这种表示法也称为中缀表示。波兰逻辑学家J.Lukasiewicz于1929年提出了另一种表示表达式的方法。逆波兰表达式，它的语法规定，表达式必须以逆波兰表达式的方式给出。如果，该字符优先关系高于此运算符栈顶的运算符，则将该运算符入栈。倘若不是的话，则将栈顶的运算符从栈中弹出，直到栈顶运算符的优先级低于当前运算符，将该字符入栈。
swift算法实践2

字符串hash算法Time33在效率和随机性两方面上俱佳。对于一个Hash函数，评价其优劣的标准应为随机性，即对任意一组标本，进入Hash表每一个单元之概率的平均程度，因为这个概率越平均，数据在表中的分布就越平均，表的空间利用率就越高。Times33的算法很简单，就是不断的乘33，见下面算法原型。
swift算法实践3)-KMP算法字符串匹配

本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至dio@foxmail.com举报，一经查实，本站将立刻删除。
swift算法实践4)-trie自动机

１、trie自动机是识别字符串的确定性有向无环自动机２、图示３、构造代码F包括了状态q所对应的P中的字符串
Swift 算法实战之路一

本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至dio@foxmail.com举报，一经查实，本站将立刻删除。
Swift 算法实战之路二

本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至dio@foxmail.com举报，一经查实，本站将立刻删除。

随机推荐

10 个Python中Pip的使用技巧分享

众所周知，pip 可以安装、更新、卸载 Python 的第三方库，非常方便。本文小编为大家总结了Python中Pip的使用技巧，需要的可以参考一下
python数学建模之三大模型与十大常用算法详情

这篇文章主要介绍了python数学建模之三大模型与十大常用算法详情，文章围绕主题展开详细的内容介绍，具有一定的参考价值，感想取得小伙伴可以参考一下
Python爬取奶茶店数据分析哪家最好喝以及性价比

这篇文章主要介绍了用Python告诉你奶茶哪家最好喝性价比最高，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习吧
使用pyinstaller打包.exe文件的详细教程

PyInstaller是一个跨平台的Python应用打包工具，能够把 Python 脚本及其所在的 Python 解释器打包成可执行文件,下面这篇文章主要给大家介绍了关于使用pyinstaller打包.exe文件的相关资料,需要的朋友可以参考下
基于Python实现射击小游戏的制作

这篇文章主要介绍了如何利用Python制作一个自己专属的第一人称射击小游戏，文中的示例代码讲解详细，感兴趣的小伙伴可以跟随小编一起动手试一试
Python list append方法之给列表追加元素

这篇文章主要介绍了Python list append方法如何给列表追加元素，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
Pytest+Request+Allure+Jenkins实现接口自动化

这篇文章介绍了Pytest+Request+Allure+Jenkins实现接口自动化的方法，文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
利用python实现简单的情感分析实例教程

商品评论挖掘、电影推荐、股市预测……情感分析大有用武之地,下面这篇文章主要给大家介绍了关于利用python实现简单的情感分析的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
利用Python上传日志并监控告警的方法详解

这篇文章将详细为大家介绍如何通过阿里云日志服务搭建一套通过Python上传日志、配置日志告警的监控服务，感兴趣的小伙伴可以了解一下
Pycharm中运行程序在Python console中执行,不是直接Run问题

这篇文章主要介绍了Pycharm中运行程序在Python console中执行,不是直接Run问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教