配件商：

代理商：

制造商：

您的位置：首页 > 资讯 > 行业动态 > 正文

谷歌和UC伯克利的新式Actor-Critic算法快速在真实世界训练机器人

2019-01-24 09:05 性质：转载作者：雷锋网来源：雷锋网

免责声明：中叉网（www.chinaforklift.com)尊重合法版权，反对侵权盗版。（凡是我网所转载之文章，文中所有文字内容和图片视频之知识产权均系原作者和机构所有。文章内容观点，与本网无关。如有需要删除，敬请来电商榷！）

雷锋网 AI 科技评论按：相比于传统方式中需要工程人员手动设计机器人每一个动作的精确参数，AI 时代的研究人员们有了一种全...

雷锋网 AI 科技评论按：相比于传统方式中需要工程人员手动设计机器人每一个动作的精确参数，AI 时代的研究人员们有了一种全自动化的、有着广阔前景的新学习方式：深度强化学习可以让机器人从经验、从与世界的互动中直接学习行为，因为它可以借助通用化的神经网络表示，处理复杂的传感器输入。然而，许多现有的强化学习算法都需要几天、几周甚至更久时长的真实世界数据才能收敛到比较理想的动作。更重要的是，这样的系统很难在复杂的机器人系统上使用（比如多足机器人），在系统的探索学习过程中很容易就会损伤到机器人的机械部件，同时还难以调节超参数，许多安全方面的考量也可能带来更多的限制。

近期，谷歌 AI 与 UC 伯克利大学合作研发了一种新的强化学习算法 Soft Actor-Critic（SAC）。这是一种稳定、高效的深度强化学习算法，它高度符合机器人实验的需求，也就非常适合真实世界中的机器人技能学习。重点是，SAC 的学习效率足够高，可以在数个小时内学会解决真实世界的机器人问题，而且同一套超参数可以在多种不同的环境中工作。

谷歌 AI 撰写博客介绍了 SAC 背后的一些研究工作，也介绍了相关的实验结果。雷锋网 AI 科技评论编译如下。另外可以参见 OpenAI 先在模拟环境中训练机器人，然后高效地迁移到真实机器人的研究。

在真实世界中学习机器人的要求

真实世界的机器人实验有着一些重大的挑战，比如硬件失效和人工重置会导致数据流经常中断，以及需要让探索学习过程平滑，避免快速的机械磨损或者撞击破坏，这都对算法理论和算法的实现增加了额外的限制，包括以下（但不限于）：

有较高的样本效率，以便降低学习时间；需要调节的超参数的数量尽量小；能在不同的场景中重复使用已经采集到的数据（也被称作“无策略学习”）；确保探索学习过程不损坏硬件；Soft Actor-Critic

Soft Actor-Critic 是基于最大熵强化学习开发的，这是一种尝试让预期回报最大化（标准的强化学习目标），同时也让策略的熵最大化的框架。熵更高的策略具有更高的随机性，从直觉上看来，这意味着最大熵强化学习会学习出能取得高回报的策略中具有最高随机性的那个策略。

为什么在机器人学习中这是一件好事呢？一个明显的原因是，为最大熵优化的策略会更为鲁棒：如果策略在训练过程中能够允许高度随机的动作，那么它在测试时候也就更有可能可以顺利地应对预期不到的扰动。不过更稳妥的理由是，最大熵训练不仅可以提高算法对超参数的鲁棒性，也可以提高它的采样效率。

Soft Actor-Critic 会学习一个随机策略，这个策略会把状态映射到动作以及一个 Q 函数，这个 Q 函数会估计当前策略的目标价值，并通过逼近动态编程优化它们。通过这样的方式，Soft Actor-Critic 可以让经过熵强化的回报最大化。在这个过程中，SAC 会把目标看作一个绝对真的方法来导出更好的强化学习算法，它们的表现稳定，而且有足够高的样本效率，可以用在真实世界的机器人应用中。

SAC 的表现

研究人员们在两个任务中评估了算法的表现：1，Ghost Robotics 环境中 Minitaur 四足机器人的行走；2，用一个三指动力爪转动阀门。学习行走这件事当然是一个不小的挑战了，由于机器人是欠驱动的，所以机器人需要学会如何在四只腿之间平衡接触力的大小，这样才能持续往前走。未经训练的策略会让机器人失去平衡摔倒，而如果摔了太多次，最终是有可能把机器人摔坏的。样本高效的学习在这时候也就非常关键。

虽然研究人员们是在平地上训练的机器人行走策略，但稍后的测试阶段是在多种不同的地面状况和障碍物上进行的。理论上来说，通过 SAC 学习到的策略在测试时遇到扰动的时候也应当是鲁棒的。而实际上研究人员们也观察到，通过他们的方法学习到的策略不需要任何额外的学习就可以应对这些扰动。

训练

测试 1

测试 2

测试 3

下面这个操控任务需要机械手转动一个类似阀门的物体，目标是让蓝色的一面朝向右侧。这个任务尤其有挑战性，不仅任务的理解感知有难度，而且还需要控制这个具有 9 个自由度的机械手。为了能够感知这个阀门，机器人必须要使用来自摄像头的原始 RGB 图像输入（如图右下角）。对于每一轮尝试，阀门的位置都会重新设定到一个随机角度，迫使策略学习如何根据 RGB 图像输入感知当前的阀门角度。

对于这两个任务，SAC 都能很快地解决：前一个四足机器人任务学了 2 个小时，后一个观察图像、转动阀门的任务学习了 20 个小时。研究人员们也为转动阀门任务学习了一个无需图像输入的策略，他们把其它方式采集到的阀门角度作为观察结果输入给策略，在这种简单的设置下 SAC 只需要 3 个小时就可以学会解决这个任务。相比之下，更早的使用自然策略梯度的研究学习同一个无需图像输入的任务需要花 7.4 个小时。

结论

这项研究展示了基于熵最大化框架的深度强化学习可以用来在有挑战性的真实世界环境中学习机器人技能。由于这些策略是直接在真实世界中学习到的，它们对环境中的变化表现出了鲁棒性，这通过其他方式是很难获得的。研究人员们也展示了他们可以直接从高维图像观察中学习，这对经典机器人控制来说也是一个很大的挑战。研究人员们希望 SAC 的发表可以帮助其他的研究团队一同更好地把深度强化学习应用在未来更多的复杂真实世界任务中。

0赞 0踩

下一篇 2018年中国叉车行业情况简析

上一篇深圳成全国机器人产业链最完整城市行业产值已过千亿

网友评论
文明上网，理性发言，拒绝广告
0条评论

相关资讯
更多>>

本周工业车辆行业热点回顾（2025.3.23－3.29）

在回顾工业车辆行业热点前，先分享下《阿米巴经营》。阿米巴经营模式为企业破解“个人修炼”到“集体修炼”的难题提供了一条可行的路径。通过构建“四个共同体”...

2025-03-29 08:40
本周工业车辆行业热点回顾（2025.3.16－3.22）

本周春分，春分是季节平分和昼夜平分的节点，蕴含着“中庸”的智慧。在中国传统文化中，“中庸”强调不偏不倚、和谐均衡。原来在我们的生活中，处处都是学问，这...

2025-03-23 08:32
ProMat 2025开幕：中国企业加速全球化布局，物流行业迎来创新与可持续发展新篇章

全球极具影响力的内部物流和自动化技术展会ProMat 2025于当地时间3月17日在美国芝加哥的麦考密会展中心开幕，吸引了来自全球145个国家的超过5万名专业买家及120...

2025-03-18 13:57
国家标准《叉车属具设计规范》及行业标准《叉车属具轮胎夹》（送审稿）专家审定会在安徽合肥成功召开

2025年3月10日至13日，全国工业车辆标准化技术委员会（以下简称“工业车辆标委会”）在安徽省合肥市组织召开了国家标准《叉车属具设计规范》及行业标准《叉车...

2025-03-13 09:20
LogiMAT 2025启幕：全球物流创新风向标，中国企业加速出海布局

德国斯图加特，2025年3月11日--全球内部物流与自动化技术领域盛会LogiMAT 2025今日在德国斯图加特盛大开幕。本届展会以“Passion for Solutions（用激情，以...

2025-03-12 15:57
中国工业车辆企业强势亮相ProMat 2025，中叉网再赴芝加哥物流盛会

ProMat 2025展会聚焦：中国企业展现全球化雄心两年一度的全球仓储物流行业盛会——美国芝加哥国际搬运与物流技术展览会（ProMat 2025）将于2025年3月17日至20...

2025-03-11 11:17
关于对国家标准《自动导引车设计通则》《自动导引车术语》(英文版)征求意见稿征求意见的函

2025-03-11 09:18
本周工业车辆行业热点回顾（2025.3.2－3.8）

在国际妇女节之际，向所有女性致以崇高的敬意和美好的祝福。愿你们如春日般明媚，如花朵般绽放，勇敢追梦，活出精彩人生！工作一周了，欢迎大家一起关注工业车辆...

2025-03-08 11:38
致敬叉车巾帼，共庆“三八”芳华

2025-03-08 08:52
相约斯图加特和芝加哥，鸟瞰内部物料搬运的未来！

2025年3月，全球物流与供应链领域的两大盛会将再次震撼登场——德国斯图加特的LogiMAT 2025和美国芝加哥的ProMat 2025。中国叉车网（www.chinaforklift.com）...

2025-03-07 10:19