环球门户网

谷歌的DeepMind通过玩雷神3 Arena教授人工智能团队合作

更新时间:2021-10-19 09:19:44

导读 1、谷歌的DeepMind今天分享了研究和实验的结果。在多人第一人称射击游戏Quake III竞技场中,几个人工智能系统被训练来玩抓旗游戏。在这

1、 谷歌的DeepMind今天分享了研究和实验的结果。在多人第一人称射击游戏Quake III竞技场中,几个人工智能系统被训练来玩抓旗游戏。在这个过程中训练出来的人工智能现在比游戏中大多数人类玩家都要好,无论是和人类还是机器队友一起玩。

2、 名为Win (FTW)的AI已经在Quake III竞技场上打了近45万场比赛,以获得对人类玩家的主导地位,并建立了如何与其他机器和人类有效合作的理解。DeepMind指的是训练多个独立智能体采取集体行动作为多智能体学习的实践。

3、 该公司在今天的一篇博客文章中说,“我们训练的特工像个人一样学习和行动,但它必须能够与任何其他特工合作或对抗,无论是人工的还是人类的。”“从多智能体的角度来看,(获胜)要求玩家成功地与队友合作,与对手竞争,同时在可能遇到的任何竞争风格中保持强大。”

4、 DeepMind最著名的身份可能是AlphaGo的创造者。AlphaGo是一个人工智能系统,在2017年5月击败了全球顶尖的Go玩家。AlphaGo Zero,AlphaGo的传人,后来通过和自己对战变得更好。

5、 以前关于视频游戏强化学习的研究集中在只有少数玩家的环境中,而DeepMind的实验涉及30个代理和4个代理同时与人类或机器作战。

6、 在40个人旗手和40个人旗手的比赛中,只有机器的队伍在只有人类参与的比赛中没有被击败,有95%的机会赢得有机器伙伴的队伍的比赛。

7、 平均而言,人机团队在每场比赛中捕获的16面旗帜的数量少于由两个FTW代理组成的团队。

8、 研究发现,与人类相比,agent的标记效率更高,80%的时间可以实现这一策略,而人类只有48%。即使标记能力被压制到与人类相当的水平,FTW依然保持着对人类玩家的优势。

9、 有趣的是,一项对人类参与者的调查发现,FTW比人类队友更合作。

10、 这项研究的作者包括DeepMind的创始人兼首席执行官杰米哈萨比斯。

11、 这项研究是在一些特殊的挑战下进行的。

12、 捕获标志是在随机地图布局中进行的,而不是在静态和一致的环境中进行的,以便训练系统更好地理解总体结果。还介绍了地势平坦的室内环境和不同海拔的室外环境。代理也以快或慢的模式运行,并开发了自己的内部奖励系统。

13、 用来训练特工的唯一信号就是他们的队伍能否在五分钟内拿到最多的旗子,从而赢得比赛。

14、 在此之前,机器是没有游戏规则的,但是随着时间的推移,FTW学会了一些基本的策略,比如在家里防守,跟随队友,或者在对手的基地扎营,在对手的旗帜被缴获后给他们贴上标签。

15、 标记是触摸对手并将其送回出生地的动作,这也包含在赢得比赛的战术中。

16、 DeepMind是人工智能研究人员的最新成果,他们将强化学习应用到视频游戏中,作为一种训练机器策略、记忆或其他人类共同特征的方法,这些在计算机中并不自然存在。

17、 上个月,OpenAI透露,它使用强化学习来训练AI,以击败dota2的人才团队。

18、 从多智能体环境中获得的见解可用于指导人机交互,并训练人工智能系统相互补充或协同工作。

19、 例如,作为DARPA终身学习机器研究计划的一部分,SRI国际研究所正在训练AI系统玩角色扮演游戏《星际争霸:重铸》,从而训练它们像游戏中的角色一样采取集体行动、分组行动或团队旅行。

20、 DeepMind在《星际争霸》中也发现了很多价值。今年8月,DeepMind宣布与暴雪合作发布《星际争霸2》强化学习API。

版权声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢您的支持与理解。