您的位置 首页 智能家居

谷歌开源SEED RL强化学习框架,训练成本降低多达80%

SEED RL框架的开源,将为AI创企和小型AI实验室创造一个低成本、公平的竞争环境。

谷歌开源SEED RL强化学习框架,训练成本降低多达80%

智东西(公众号:zhidxcom)
编 | 韦世玮

智东西3月24日消息,美国当地时间3月23日,谷歌开源了一个名为SEED RL的强化学习(RL)框架,能够将人工智能(AI)模型训练扩展到数千台机器,有助于在一台机器上以每秒数百万帧的速度进行训练,并将训练成本降低多达80%。

这一强化学习框架的开源,也将为那些AI创企和小型AI实验室创造一个低成本、公平的竞争环境。

据了解,该研究论文已于2019年10月15日提交在预印本平台arXiv,并在今年2月11日进行了最新修订,名为《SEED RL:具有加速的集中推理功能的可扩展且高效的Deep-RL(SEED RL: Scalable and Efficient Deep-RL with Accelerated Central Inference)》。

谷歌开源SEED RL强化学习框架,训练成本降低多达80%

论文链接:https://arxiv.org/abs/1910.06591

一、为何要研发并开源RL框架?

实际上,就现阶段而言,在云端训练复杂的机器学习模型十分昂贵。

据研究报告数据,华盛顿大学(University of Washington)的Grover专为生成和检测假新闻而设计,该模型在两周的在训练中共花费了2.5万美元;OpenAI训练其GPT-2语言模型,每小时需花费256美元;谷歌训练其BERT双向转换器模型,预估也花费了6912美元。

而这些模型前期的训练成本,对一些大型AI实验室或科技巨头来说也许不足为提,但对于许多的AI创企和小型AI实验室而言,却带来了压力。

二、SEED RL的特点与性能

基于谷歌的TensorFlow 2.0框架,SEED RL的特点是能通过集中模型推理,来利用图形卡和TPU(张量处理单元)。

为了避免数据传输瓶颈,SEED RL还使用学习器组件来集中执行AI推理,而该组件也使用来自分布式推理的输入来训练模型。

此外,目标模型的变量和状态信息将保持在本地,并将每个环境步骤的观察结果发送给学习器组件。同时,由于该模型使用了基于开放源代码通用RPC框架的网络库,因此它的延迟也将保持在最低水平。

谷歌开源SEED RL强化学习框架,训练成本降低多达80%

SEED RL的学习器组件能够扩展到成千上万个核心,例如在Cloud TPU上最多可扩展到2048个,而参与者的数量可扩展多达数千台机器。

同时,一种名为V-trace的算法可从中采样动作的分布,而另一种名为R2D2的算法则根据该动作的预测未来值来选择动作。

三、如何评估SEED RL性能?

为了评估SEED RL,谷歌研究团队在常用的Arcade学习环境、几种DeepMind实验室环境和谷歌足球环境中,对SEED RL进行了基准测试。

研究人员表示,他们利用SEED RL成功地解决了谷歌足球任务,并使用64个云TPU核实现了每秒240万帧的帧数,比以前最新的分布式代理提高了80倍。

谷歌开源SEED RL强化学习框架,训练成本降低多达80%

“这大大缩短了挂钟时间,实现了显著的加速效果。同时,由于加速器的每次操作成本比CPU低几个数量级,因此模型实验的成本也实现了大幅降低。”在研究人员看来,SEED RL和提交的测试结果表明,在利用加速器方面,强化学习再次超越了深度学习的其他领域。

文章来源:VentureBeat

免责声明:文章内容不代表本站立场,本站不对其内容的真实性、完整性、准确性给予任何担保、暗示和承诺,仅供读者参考,文章版权归原作者所有。如本文内容影响到您的合法权益(内容、图片等),请及时联系本站,我们会及时删除处理。

作者: dawei

【声明】:第七手机网内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。

为您推荐

无人汽车无法躲避没见过的物体?问题出在训练pipeline上

人类经常会遇到种类新颖的工具、食物或动物,尽管以前从未见过,但人类仍然可以确定这些是新物体。 与人类不同,目前最先进的检测和分割方法很难识别新型的物体,因为它们是以封闭世界的设定来设计的。它们所受的训练是定位已知种类(有标记)的物体,而把未

万字读透自动驾驶3D视觉感知算法

对于自动驾驶应用来说,最终还是需要对3D场景进行感知。道理很简单,车辆不能靠着一张图像上得到感知结果来行驶,就算是人类司机也不能对着一张图像来开车。因为物体的距离和场景的和深度信息在2D感知结果上是体现不出来的,而这些信息才是自动驾驶系统对周

自动驾驶会使共享经济再次火热吗?

自动驾驶技术的发展一直饱受争议,对于自动驾驶的未来,有一个一直绕不开的话题,那就是自动驾驶是否安全。众所周知,自动驾驶的目标是让自动驾驶汽车可以独立完成出行任务,人类将自己出行需求完全交给自动驾驶汽车,在出行过程中的娱乐需求也可以由自动驾

Cruise自动驾驶决策规划技术解析

Cruise自动驾驶决策规划控制负责人Brandon Basso本科毕业于哥伦比亚大学,博士毕业于加州大学伯克利分校,主要研究决策、机器人系统设计和软件架构、机器学习、控制理论等。曾在3D Robotics、Uber自动驾驶公司工作多年,担任重要职位,在无人机和自动驾驶领

自动驾驶汽车比七个月大的婴儿还聪明吗?

到了七个月大的时候,大多数孩子已经认识到,即使看不见物体,它们仍然存在。把一个玩具放在毯子下面,孩子会知道它的存在,他可以伸手到毯子下面把它拿回来。这种对物体恒存在的理解是正常发展的里程碑,也是现实的基本原则。 这也是自动驾驶汽车所没有的。

返回顶部