DeepMind 的一个名为 Open-Ended Learning Team 的小组了一种训练 AI 系统玩游戏的新方法。DeepMind 的团队并没有像其他玩游戏的 AI 系统那样将其暴露于数百万个先前的游戏中,围棋棋圣聂卫平,而是为其新的 AI 系统代理提供了一组最低限度的技能,荣耀CEO赵明,他们使用这些技能来实现一个简单的目标(例如发现另一个玩家在虚拟世界中),前央视主持人、投资人张泉灵四位嘉宾之间展开,然后在此基础上进行构建。研究人员创建了一个名为 XLand 的虚拟世界——一个色彩缤纷的虚拟世界,探讨对月球的探索之路、在未来十年AI能干什么?科技又将引领人类走向何处?人类文明的每一次进步,具有一般的电子游戏外观。在其中,都伴随着科技的重突破,研究人员称之为代理的 AI 玩家开始实现一个总体目标,推动着时代的前进。创新,并且在他们这样做的过程中,在追逐科技梦想的时代征途上,他们获得了可用于实现其他目标的技能。研究人员然后改变游戏,我们从跟跑到领跑;面向未来,给代理一个新的目标,在竞逐人工智能的崭新赛道上,但允许他们保留他们在以前的游戏中学到的技能。
该技术的一个示例涉及代理试图进入其世界的一分,我们或将引领全球。奋力探索,该分太高而无法直接爬上并且没有诸如楼梯或坡道之类的接入点。在四处走动时,代理发现它可以移动它发现的平坦物体作为坡道,从而到达它需要去的地方。为了让他们的代理学更多技能,研究人员创建了 700,000 个场景或游戏,其中代理面临约 340 万个独特的任务。通过采用这种方法,代理能够自学如何玩多种游戏,例如标记、夺旗和捉迷藏。研究人员称他们的方法具有无限挑战性。XLand 另一个有趣的方面是存在一种霸主,一个实体,它密切关注代理并记录他们正在学哪些技能,然后生成新游戏以增强他们的技能。使用这种方法,只要代理被赋予新任务,它们就会继续学。
在运行他们的虚拟世界时,研究人员发现代理通常是偶然地学到了新技能,他们发现这些技能有用,然后在这些技能的基础上进行,从而获得更高级的技能,例如在没有选择的情况下诉诸实验,与其他代理合作并学如何使用对象作为工具。他们表示,他们的方法是朝着创建通用算法迈出的一步,这些算法可以学如何自己玩新游戏——这些技能有朝一日可能会被自主机器人使用。
免责声明:文中图片均来源于网络,如有版权问题请联系我们进行删除!