您的位置:首页 > 资讯 > 行业动态 > 正文

专访 | 前OpenAI科学家辞职创立智能机器人公司,我们和他们的CEO聊了聊

2017-11-30 08:12 性质:转载 作者:机器之心 来源:机器之心
免责声明:中叉网(www.chinaforklift.com)尊重合法版权,反对侵权盗版。(凡是我网所转载之文章,文中所有文字内容和图片视频之知识产权均系原作者和机构所有。文章内容观点,与本网无关。如有需要删除,敬请来电商榷!)

传统机器人的硬伤

  传统工业机器人的痛点,是每一个想要做智能机器人创业公司的机会。

  目前,工业机器人的硬件水准是无可挑剔的。市面上大部分机器人都可以达到百分之一毫米的精确度,而且一个三五十万的机械臂的耐久度至少是五至十年的时间。机器人可以完成批量地、重复的动作、在生产线上进行装配,满足刚性制造所需的大批量生产。

  但机器人的每一个动作都需要工程师在背后进行精细的编程,从拿起一个元件,到装配到另一个元件上,编程的过程都需要考量诸如距离、角度这样的条件。很多在人类看来非常简单的动作,对机器人来说却是很大的挑战。

  比如,将两个齿轮合在一起,人类只要拧一拧调整一下角度就可以轻松地将齿轮卡住,但机器人不这么觉得。如果用传统机械的方法,工程师需要准确的监测到两个齿轮之间的角度差异,然后来回进行转动让它完美地契合在一起,这立刻就变得变成一个很困难的工程问题。

  「任何需要用眼来看,然后用手来去进行适应性的操作,都是对传统机器人的挑战,」Chen 说。越来越多年轻人不愿意在工厂或者仓库里做这些枯燥的、重复的动作,但传统机器人又无法适应柔性的、可以随时变化操作的工业制造。Chen 想要在短时间内解决的就是,让机器人既可以组装齿轮,下一秒也可以去装备其他的元件或者完成其他的动作。

  智能机器人的解决方法可以有很多。今年受机器人公司关注的有谷歌提出的自我监督模仿(Self-Supervised Imitation)。通过一种叫做时间对比网络(Time-Contrastive Networks)的神经网络,机器人能够自我学习视频里的动作,比如倒水,或者站立。

  Chen 则将希望寄托于深度强化学习。这种基于环境而行动、从而获得最大化利益的机器学习方法,在过去的两年时间里成功地让电脑学会了下围棋和打游戏。

  2015 年,Chen 过去所在的伯克利机器人实验室,已经通过深度强化学习让机器人获得了一种类似于视觉肌肉记忆 的能力(Visual Motor Skills)。人类在做很多动作时不会认真经过大脑思考。比如在人喝水前,并不会在脑海里提前画上一个从拿起杯子——转动杯子角度——将水倒入嘴里的草图,而是根据条件反射直接拿起杯子喝水。

  这个过程并不复杂:深度神经网络就像人类的大脑一样,它能够处理视觉数据,让机器拥有模拟人类条件反射的能力;模拟之后,接下来就是训练机器的方法。利用深度强化学习,机器人能通过不断地试错和奖励机制找到学习这个动作的「窍门」。这种学习动作的过程不需要手把手的编程。

  但是,两年前的方法最终只停留在理论阶段。机器人的深度强化学习需要一个引导设置,而不是漫无目的地试错,这就需要拥有强化学习知识的人才(主力是博士生)完成前期的编程和调试。一个大学里的实验室可以让几个博士生没日没夜的埋头苦干,但这显然不适用于工业界。

  因此,直到两年后,Chen 的团队找到了能够落地的解决方案——模拟学习(Imitation Learning)。

模拟学习搭配强化学习

  消费级 VR 设备的出现,为很多 AI 公司提供了意外惊喜。Embodied Intelligence 使用了 VR 设备实现了机器人模拟学习的能力。据 Chen 介绍,模拟学习的主要研究出自另一位联合创始人 Tianhao Zhang 之手。

  任何人带上 VR 设备,拿上遥控器,就相当于人在实时遥控一个机器人。机器人只需实时追踪 VR 设备的手的运动轨迹,VR 中的示范数据则将用来训练深度神经网络。在这个过程中,机器人持续地学习,直到它表示:「我学会了。现在我可以自己接手了。」整个过程只需要 30 分钟。按照 Chen 的话说,即使是这 30 分钟再乘上 100 倍,也比过去训练机器人动作的成本要小。

  这种方法具有很好的迁移性或者说适用性。即使是不同的动作,它背后的代码是一模一样的,包括 VR 的代码、收集示范动作的代码、训练的代码,以及神经网络学习的代码,都是一样的。唯一的不同只是示范的动作而已。

  目前,Embodied Intelligence 的机器人学过时间最长的动作是将近一分钟,学习动作并没有明确的规定,大部分人类凭条件反射就能完成的动作,机器人都可以学习。但还不知道机器人是否能学习一些非常规的动作,比如上周波士顿动力机器人 Atlas 的后空翻。

  完成模拟学习后,机器人依然需要强化学习的介入,让它能够继续进行自我学习。人类的动作有些时候并非最有效的,比如在走路时沿着一个弧线,这可能不是最优的结果,或者人在走路的时候会有一些颤抖也是很有可能的,但对一个机器人来说,通过强化学习可以让动作变得更加高效。

  「近段时间 AI 领域的突破性进展已让机器人学会行走,通过反复试错学习操纵物体,以及从 VR 收集的示范数据来学习新的技能。但是,这些进展都局限于仿真或实验室环境。」Amplify Partners 合伙人Sunil Dhaliwal 说,「Embodied Intelligence 团队推动了很多这些进展,而现在他们将把这些最前沿的人工智能和机器人领域的进展引进具体的应用场景中。」

  据 Chen 透露,这套基于模拟学习和强化学习的机器人应用将在明年投身工业界,通过这套流程,机器人可以轻松地学会广泛的技能,尤其在那些传统解决方案望而却步的应用领域,比如操纵可变形的物体——电线、丝料、布料、服装、液体包装、食品等,在不规则、杂乱环境中分拣、整理物品,复杂的拼装任务。而随着材料不规整程度的增加,以及个性化订单的增长,传统硬编码的方式尤其展现出其局限性。

  只不过,Embodied Intelligence 的蓝图并不尽于此。

五到十年,实现元学习

  模拟学习+强化学习是一个 Embodied Intelligence 能够短期内提供的智能解决方案,元学习(Meta Learning)才是这家公司放眼未来五年到十年的核心。「机器人和人力的关键区别是『教』的成本,我们想把机器人变得和人一样可教。现阶段,我们只是在减少教的时间。」

  什么是元学习?简答来说,就是让机器人学会一个学习策略。过去的深度学习是通过输入大量的数据得到一个结果,而元学习则是从少量数据中获得学习这类任务的方法。换言之,这也是一种体现在机器人上的通用人工智能(Artificial General Intelligence),也是为什么Chen会将公司取名为Embodied(具现) Intelligence(智能)。

  Chen 在元学习上已经有了一些研究上的成果。今年,Chen 联合他的导师在 arXiv 上发表了两篇关于元学习的论文。Meta Learning Shared Hierarchies 研究了一种用于学习层次结构化策略的元学习方法,通过使用共享基元提高未见任务的样本效率;另一篇 Meta-Learning with Temporal Convolutions 则提出了一类基于时间卷积的简单和通用的元学习器体系结构,这个结构不限领域,而且没有使用特定的策略或算法进行编码。

  在 Chen 设想的蓝图里,Embodied Intelligence 最终实现的智能机器人将同时拥有元学习和强化学习的能力。「强化学习在单一任务上表现的很好,元学习是让机器人掌握快速学习,这两者在未来是可以互补的。」

  身在硅谷的 Chen 面临的压力不小,除了像谷歌这样的科技巨头发力智能机器人外,不少初创公司也有这样的野心,在距离埃默里维尔市开车 20 分钟的联合城市(City),同样一家机器人公司Vicarious.ai 在为实现具有人类智能的机器人夜以继日。该公司的 CTO Dileep George 曾告诉机器之心,他们选择了一条完全不同于深度学习和强化学习的路径——通过模拟人类的视觉皮质,结合生成模型,让机器能够模拟物体的结构,从而获得对物体本身的理解能力。而他们预期在 2040 年前后实现。

  没有人能确定哪一条路能通往人工智能的终极圣杯。但从现在来看,带着伯克利和 OpenAI 最新研究出走的 Embodied Intelligence 是走在了机器人科研的最前沿。


 

12下一页

网友评论
文明上网,理性发言,拒绝广告

相关资讯

关注官方微信

手机扫码看新闻