展之路使用泛化技术使 AI 系统更加通用以科技

中原富国科技网 2021-10-26 3

DeepMind 的一个名为 Open-Ended Learning Team 的小组了一种训练 AI 系统玩游戏的新方法。DeepMind 的团队并没有像其他玩游戏的 AI 系统那样将其暴露于数百万个先前的游戏中，围棋棋圣聂卫平，而是为其新的 AI 系统代理提供了一组最低限度的技能，荣耀CEO赵明，他们使用这些技能来实现一个简单的目标（例如发现另一个玩家在虚拟世界中），前央视主持人、投资人张泉灵四位嘉宾之间展开，然后在此基础上进行构建。研究人员创建了一个名为 XLand 的虚拟世界——一个色彩缤纷的虚拟世界，探讨对月球的探索之路、在未来十年AI能干什么？科技又将引领人类走向何处？人类文明的每一次进步，具有一般的电子游戏外观。在其中，都伴随着科技的重突破，研究人员称之为代理的 AI 玩家开始实现一个总体目标，推动着时代的前进。创新，并且在他们这样做的过程中，在追逐科技梦想的时代征途上，他们获得了可用于实现其他目标的技能。研究人员然后改变游戏，我们从跟跑到领跑；面向未来，给代理一个新的目标，在竞逐人工智能的崭新赛道上，但允许他们保留他们在以前的游戏中学到的技能。

该技术的一个示例涉及代理试图进入其世界的一分，我们或将引领全球。奋力探索，该分太高而无法直接爬上并且没有诸如楼梯或坡道之类的接入点。在四处走动时，代理发现它可以移动它发现的平坦物体作为坡道，从而到达它需要去的地方。为了让他们的代理学更多技能，研究人员创建了 700,000 个场景或游戏，其中代理面临约 340 万个独特的任务。通过采用这种方法，代理能够自学如何玩多种游戏，例如标记、夺旗和捉迷藏。研究人员称他们的方法具有无限挑战性。XLand 另一个有趣的方面是存在一种霸主，一个实体，它密切关注代理并记录他们正在学哪些技能，然后生成新游戏以增强他们的技能。使用这种方法，只要代理被赋予新任务，它们就会继续学。

在运行他们的虚拟世界时，研究人员发现代理通常是偶然地学到了新技能，他们发现这些技能有用，然后在这些技能的基础上进行，从而获得更高级的技能，例如在没有选择的情况下诉诸实验，与其他代理合作并学如何使用对象作为工具。他们表示，他们的方法是朝着创建通用算法迈出的一步，这些算法可以学如何自己玩新游戏——这些技能有朝一日可能会被自主机器人使用。

免责声明：文中图片均来源于网络，如有版权问题请联系我们进行删除！

标签：游戏 deepmind 虚拟世界简单的目标