谷歌宣布,它在多任务学习方面取得了巨大进展:他们创造了一个可以玩41场雅达利游戏的AI,采用的新训练方法与其他算法相比,大大提高了训练效率!
之前玩星际的CherryPi和火了的AlphaGo都属于单场代理也就是说,一个AI只能玩一局在多智能体方面,现有的训练算法屈指可数:主要包括时间差异学习和行为克隆
但是要让一个代理学会同时玩多个游戏,这些方法之前的训练过程是很漫长的。
现在,谷歌采用了新的决策变压器架构来训练代理,可以在少量的新游戏数据上进行快速微调,使得训练速度更快而且训练效果也是杠杠的——这种多局代理打41场的综合得分是DQN等其他多局代理的两倍左右,甚至比得上只进行单局训练的代理
100%代表每个游戏的平均人类水平,灰条代表单游戏代理,蓝条代表多游戏代理。
让我们来看看这款性能出色的多游戏代理。
新决策转换器的三大亮点
这种处理多种游戏学习的转换器采用了一种将强化学习问题视为条件序列建模的框架它根据agent与环境过去的交互以及预期的收益来指导agent接下来的活动
说到强化学习,讨论的主要问题是:在训练的过程中,面对复杂环境的agent如何在每个时间步感知当前的状态和奖励来指导下一步的行动,从而最终实现累积收益的最大化。
传统的深度RL智能学习一个策略梯度,增加高回报轨迹的概率,降低低回报轨迹的概率。
这就导致了一些问题:需要手动定义一个标量值范围,信息量很大,包括每个具体游戏的适当信息这是一个相当庞大的项目,扩展性很差
为了解决这个问题,谷歌团队提出了一种新方法。
培训包容性数据更加多样化。
谷歌的新决策Transformer将初级玩家到高级玩家的体验数据映射到相应的收入水平开发者认为,这将使AI模型更全面地理解游戏,从而使其更加稳定,提高其游戏水平
根据培训期间代理人与环境之间的相互作用,他们建立了一个利润分配模型这个代理玩游戏的时候,只需要加一个优化偏差,就可以增加高奖励的概率
此外,为了更全面地捕捉训练期间智能体与环境交互的时空模式,开发者还将输入的全局图像改为像素块,使模型能够关注局部动态,掌握与游戏相关的更详细信息。
决策转换器基本架构示意图
可视化代理培训流程
此外,开发人员还别出心裁地将代理的行为可视化然后他们发现,这种多博弈决策智能体总是关注包含关键环境特征等重要信息的区域,它还可以多任务处理:即同时关注多个关键点
红色越亮,代理越关注该像素。
这种多样化的注意力分配也提高了模型的性能。
更好的扩展性。
如今,规模已经成为许多机器学习相关突破的重要驱动力之一,规模扩张一般是通过增加变压器模型中的参数数量来实现的研究人员发现,这种多博弈决策变压器是相似的:伴随着规模的扩大,其性能较其他模型有显著提高
脸书也在研究决策转换器。
Google通过AI使用Decision Transformer,不仅提高了AI玩多游戏的水平,还提高了多游戏代理的可扩展性。
此外,根据谷歌大脑,加州大学伯克利分校和脸书人工智能研究中心的一篇论文,决策变压器架构在加强学习研究平台OpenAI Gym和Key—to—Door的任务方面也表现良好。
也许决策转换器是通用人工智能发展的关键因素之一。
对了,Google AI说相关代码和Checkpoint会陆续在GitHub上开源,有兴趣的朋友可以去看看~
门户网站:
参考链接:
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。