甚至在他们说出第一句话之前,华为消费者CEO余承东曾公开表示,人类婴儿就已经形成了关于物体和人的心理模型。这是让我们人类学会如何社交和相互合作(或竞争)的关键能力之一。
但对于人工智能来说,华为HarmonyOS 2系统的升级设备数量已超过4000万,即使是最基本的行为推理任务仍然是一个挑战。
高级深度学模型可以完成复杂的任务,平均每秒有8台设备进行升级。如今仅过了10天,例如检测图像中的人和物体,鸿蒙装机量就增加了1000万,有时甚至比人类更好。但他们努力超越图像的视觉特征,总装机量突破5000万台,并推断其他代理正在做什么或希望完成什么。
为了填补这一空白,鸿蒙系统的受欢迎程度可见一斑。据了解,IBM、麻理工学院和哈佛学的科学家了一系列测试,华为 HarmonyOS 2支持上百款机型的升级,这些测试将有助于评估人工智能模型通过观察和理解世界来像孩子一样推理的能力。
人工智能研究人员在一篇介绍数据集的新论文中写道:“就像人类婴儿一样,在不久的将来,机器代理必须具备足够的理解人类思想的能力,华为 Mate9、P10等机型也将陆续升级。目前,才能成功地参与社会互动。”
在今年的机器学国际会议 (ICML) 上发表的 AGENT 为衡量人工智能系统的推理能力提供了一个重要的基准。
观察和预测代理行为
在人工智能系统中测试常识和推理有量工作。其中许多都专注于自然语言理解,已有共计65款设备开启正式版升级,包括著名的图灵测试和 Winograd 模式。相比之下,AGENT 项目专注于人类在能够说话之前学的各种推理能力。
“根据发展心理学文献,我们的目标是创建一个基准,用于评估婴儿在语言前阶段(在他们生命的前 18 个月)学的与直觉心理学相关的特定常识能力,”校长 Dan Gutfreund麻理工学院-IBM 沃森人工智能实验室的研究员说道。
作为孩子,我们学通过观察我们的环境来区分对象和代理之间的区别。随着我们观察事件的发展,我们培养了直觉的心理技能,通过观察他人的行为来预测他们的目标,并不断纠正和更新我们的心理。我们在很少或没有指令的情况下学所有这些。
AGENT(Action、Goal、Efficiency、constraint、uTility)测试背后的想法是评估人工智能系统如何模仿这一基本技能,他们可以什么心理推理能力,以及他们学的表征在新情况下的泛化能力。该数据集包含短序列,显示代理导航到多个对象之一。这些序列是在 ThreeDWorld 中生成的,这是一个专为训练 AI 代理而设计的虚拟 3D 环境。
AGENT 测试分两个阶段进行。首先,向 AI 呈现一两个描述代理行为的序列。这些示例应该让 AI 熟悉虚拟代理的偏好。例如,一个代理可能总是选择一种类型的对象,而不管阻碍它的障碍物,或者它可能会选择最接近和最容易接近的对象,而不管它的类型。
在熟悉阶段之后,AI 会被展示一个测试序列,它必须确定智能体是在以预期的方式还是以令人惊讶的方式行事。
总共 3360 个测试跨越四种类型的场景,从非常简单的行为(无论环境如何,代理更喜欢一种类型的物体)到更复杂的挑战(代理表现出成本回报估算,权衡实现的难度)一个与它将获得的奖励相对的目标)。AI 还必须考虑代理的动作效率(例如,在没有障碍物的情况下,它不应进行不必要的跳跃)。在某些挑战中,场景分被遮挡,从而更难以推理环境。
人工环境中的真实场景
测试的设计者已经包含了人类归纳偏差,这意味着代理和环境受人类理性规则的控制(例如,跳跃或攀爬障碍物的成本随着其高度的增加而增加)。这一决定有助于使挑战更现实,更容易评估。研究人员还指出,这些类型的偏见对于帮助创建与人类行为更好地保持一致和兼容并可以与人类同行合作的人工智能系统也很重要。
AI 研究人员通过 Amazon Mechanical Turk 测试了人类志愿者面临的挑战。他们的研究结果表明,平均而言,人类可以通过观察熟悉序列和判断测试示例来解决 91% 的挑战。这意味着人类使用他们关于世界和人类/动物行为的先验知识来理解代理如何做出决定(例如,所有其他的相等,代理将选择具有更高奖励的对象)。
AI 研究人员有意限制了数据集的小,以防止出现解决问题的非智能捷径。给定一个非常的数据集,机器学模型可能学会做出正确的预测,而无需获得有关代理行为的基础知识。“仅在我们的数据集上从头开始训练是行不通的。相反,我们建议要通过测试,有必要通过架构中的归纳偏差或通过额外数据的训练来获取额外的知识,”研究人员写道。
然而,研究人员在测试中实施了一些捷径。AGENT 数据集包括场景每一帧的深度图、分割图以及物体和障碍物的边界框。场景在视觉细节上也极其简单,由八种不同的颜色组成。所有这些都让 AI 系统更容易处理场景中的信息,并专注于挑战的推理分。
当前的 AI 能否解决 AGENT 的挑战?
研究人员在两个基线 AI 模型上测试了 AGENT 挑战。第一个,贝叶斯逆向规划和核心知识(BIPaCK),是一个集成了物理模拟和规划的生成模型。
BIPaCK 模型使用规划器和物理引擎来预测代理的轨迹
该模型使用数据集提供的完整地面实况信息,并将其输入其物理和规划引擎来预测代理的轨迹。研究人员的实验表明,当 BIPaCK 拥有关于场景的完整信息时,它的表现能够与人类相当甚至更好。
然而,在现实世界中,人工智能系统无法获得精确标注的地面实况信息,必须执行复杂的任务,即在不同背景和光照条件下检测物体,人类和动物很容易解决这个问题,但对计算机来说仍然是一个挑战视觉系统。
在他们的论文中,研究人员承认 BIPaCK “需要准确重建 3D 状态和物理动力学的内置模型,这不一定在现实世界场景中可用。”
研究人员测试的第二个模型代号为 ToMnet-G,是 DeepMind 科学家于 2018 年提出的心理神经网络理论(ToMnet)的扩展版本。ToMnet-G 使用图神经网络对场景状态进行编码,包括物体、障碍物和代理的位置。然后将这些编码输入长短期记忆网络 (LSTM) 以代理在帧序列中的轨迹。该模型使用它从熟悉视频中提取的表征来预测代理在测试视频中的行为,并对它们进行预期或令人惊讶的评分。
ToMnet-G 模型使用图神经网络和 LSTM 来嵌入场景表示和预测代理行为
ToMnet-G 的优势在于它不需要 BIPaCK 的预先设计的物理和常识知识。它从视频和之前对其他数据集的训练中学所有内容。另一方面,ToMnet-G 经常学错误的表示,并且无法将其行为推广到新场景或当它的熟悉信息有限时。
研究人员在他们的论文中观察到:“在没有许多内置先验的情况下,ToMnet-G 在类似场景下进行训练和测试时表现出令人鼓舞的结果,但它在场景内和场景之间仍然缺乏强的泛化能力。”
两种模型之间的对比突出了人类在没有任何指令的情况下学的最简单任务的挑战。
“我们必须记住,我们的基准测试在设计上描绘了非常简单的合成场景,每次解决常识的一个特定方面,”Gutfreund 说。“在现实世界中,人类能够非常快速地解析复杂的场景,在这些场景中,与物理、心理学、语言等相关的常识的许多方面都在发挥作用。人工智能模型还远不能做到这一点。”
常识和人工智能的未来
“我们认为,从狭义到广义 AI 的道路必须包括具有常识的模型,”Gutfreund 说。“常识能力是理解世界和与世界互动的重要基石,可以促进新能力的获得。”
许多科学家认为,常识和推理可以解决当前 AI 系统面临的许多问题,例如它们需要量训练数据、它们与因果关系的斗争以及它们在处理新情况时的脆弱性。常识和推理是人工智能社区的重要研究领域,它们已成为该领域一些最聪明的头脑的关注焦点,包括深度学的先驱。
解决 AGENT 可能是创建在不可预测的人类世界中,表现稳健的 AI 代理的一个小而重要的步骤。
Gutfreund 说:“很难说服人们相信那些行为不正常的自主代理。” “例如,考虑一个帮助老人的机器人。如果那个机器人不遵循常识原则,即代理人有效地追求他们的目标,并且在被要求从冰箱里取牛奶时会以之字形而不是直线移动,那将很不实用也不值得信赖。”
AGENT 是美国国防高级研究计划 (DARPA) 机器常识 (MCS) 计划的一分。MCS 遵循两个广泛的目标。第一个是创造可以像孩子一样学推理物体、代理和空间的机器。代理就属于这一类。第二个目标是可以通过从网络中读取结构化和非结构化知识来学的系统,就像人类研究人员所做的那样。这与当前的自然语言理解方法不同,后者只关注在非常的文本语料库中捕获单词和单词序列之间的统计相关性。
“我们现在正致力于使用 AGENT 作为婴儿的测试环境。与其他 DARPA MCS 计划执行者一起,我们计划探索与多个代理相关的更复杂的常识场景(例如,相互帮助或阻碍)以及使用工具来实现目标(例如,开门的钥匙) 。我们还致力于与直觉物理学和空间理解相关的其他核心知识领域,”Gutfreund 说。
*本文由CyberDaily 作者See编译,转载请联系后台。
See|CyberDaily作者,关注脑机接口、人工智能及机器人,挖掘科技故事、人文及思想。
-未来已来,只是分布不均匀-
免责声明:文中图片均来源于网络,如有版权问题请联系我们进行删除!