自然语言理解新突破！科学家让AI不止看懂“字面意思”

中原富国科技网 2021-07-25 1

智东西（公众号：zhidxcom）

编译 | 贞逸

编辑 | 云鹏

智东西7月20日消息，量子信息技术的巨前景，据外媒报道，正吸引越来越多的公司加入这一赛道。无论是IBM、谷歌、微软等科技巨头，近日，还是加拿Xanadu、美国PsiQuantum等创企的发展，伦斯勒理工学院的两位科学家撰写了一本名为《人工智能时代语言学（Linguistics for the Age of AI）》的书。

该书探讨了目前的人工智能学方法在自然语言理解 (natural language understanding，使得当前量子计算行业呈现出了百花齐放的面。在今年的两会中，NLU) 中的瓶颈，“量子信息”一词也首次出现在“十四五规划”及工作报告中，并尝试探索未来发展智能代理（intelligent agents）的途径。

《人工智能时代语言学》的作者 Marjorie McShane 和 Sergei Nirenburg发现了一种突破人工智能学语言瓶颈的新方法，成为了和人工智能、集成电路等并列的科技前沿领域。创建于2020年11月的玻色量子则是这股新兴浪潮下的一名新锐玩家，并称为“语言赋能智能体（Language endowed intelligent agents，专注于将量子计算与人工智能（AI）相结合，LEIA）”。该方法能在减少训练模型数据量的情况下，仅历时三个月就完成了光量子实验室的初步搭建。上个月，进一步提升人工智能理解人类语言的准确性。

他们认为，玻色量子还与北京量子信息科学研究院、光科技签署了三方合作协议。近日，人工智能系统必须超越对词语字面意思理解的范畴。他们在书中用案例显示了，芯东西也有机会与玻色量子的创始人、CEO文凯进行面对面地交流。在这场对话中，自然语言理解系统能够帮助人工智能理解世界、向人类解释他们的知识并在探索世界的过程中学。

▲《人工智能时代语言学》

一、AI学语言的两种方法：被动告知or主动学？

例如一个歧义语句的案例：“开刀的是她父亲”。这句话有两种理解方式，她的父亲是医生去操作开刀手术，或者她的父亲是被医生开刀的患者。

有些语句单独看充满了歧义，但人类能够通过语境来解决这些歧义。我们通过说话者的语气、语境和对话的一般逻辑以及生活基本常识的线索来构建上下文。当我们的直觉和知识未能帮助我们理解句子的时候，我们会提出疑问。对我们（人类）来说，确定上下文的过程是很容易的。但是让计算机用程序思维来理解相同的过程并不简单。

科学家提出了两种方式来尝试解决这个问题。

第一种方式是科学家在人工智能发展的初期使用的。科学家通过知识库（Knowledge-based）系统来确定句子中的每一个单词的作用，并提取上下文的含义。但知识库系统依赖量的关于语言、情境和世界的特征（features）。这些信息可能有着各自的来源，并且（在计算机中）需要独立的计算方式。

知识库提供了可靠（reliable）和可解释（explainable）的语言分析方法。但后来它们逐渐“失宠”了，因为它们需要太多的人力来设计特征、创建词汇结构（lexical structures）和本体（ontologies），以及将所有这些分结合在一起的软件系统。研究人员认为知识工程（knowledge engineering）的瓶颈是手动工作（manual effort，量的人工操作且不能穷举所有结果），他们尝试寻求其他方法来进行语言处理（language processing）。

“公众认为任何试图克服这种所谓的知识瓶颈的努力都是徒劳的，这深刻影响了人工智能的发展道路，特别是自然语言处理，使该领域远离了理性主义、基于知识的方法，并促成了经验主义的出现。”McShane和Nirenburg在《人工智能时代的语言学》中写道。

近几十年来，机器学算法（machine learning algorithms）已经成为神经语言程序学（Neuro-Linguistic Programming，NLP）和自然语言理解（Natural Language Understanding，NLU）的核心。

分科学家逐渐开始使用第二种方式，利用知识学系统（knowledge-lean systems）来训练机器学模型，使人工智能通过统计关系来处理语境问题。在训练过程中，机器学模型需要处理量的文本资料，并根据单词与单词相邻位置的方式来调整其参数。在这些模型中，语境是由单词序列之间的统计关系决定的，而不是单词背后的含义。不过，数据集越，例子越多样化，这些数字参数就越能捕捉到单词彼此之间的各种出现方式（能够记录单词与单词的排列参数）。

知识学系统之所以得到普及，主要是因为量的计算资源和型数据集可以被用来训练机器学系统。通过维基百科等公共数据库，科学家们已经能够收集庞的数据集，并针对翻译、文本生成和问答等各种任务，设置机器学的专项训练。

二、机器记录了数据并不意味“理解”了数据

今天，我们的深度学模型可以生成文章长度的文本序列，回答科学考试问题，编写软件源代码以及回答基本的客户服务查询。这些领域之所以能取得进展，是因为深度学架构（LSTMs，Transformers）得到了改进。更重要的是，神经网络研究每年都有新的进展。

但是，虽然更的深度神经网络可以在特定任务上逐步取得进展，但它们并不能解决“通用自然语言理解（general natural language understanding）”这一更宽泛的问题。这就是为什么各种实验表明，即使是最复杂的语言模型也无法回答有关世界是如何运作的简单问题。

在McShane和Nirenburg的书中，他们把目前人工智能系统解决的问题描述为“唾手可得的水果（low-hanging fruit）”任务。一些科学家认为，继续沿着神经网络的道路前进，最终会解决机器学正面的语言学问题。但McShane和Nirenburg认为，还有更根本的问题需要解决。

“当前的系统不像人类，它们不知道自己在做什么以及为什么这样做。它们解决问题的方法也不像人类，而且它们不依赖于世界、语言或机构的互动。”他们写道，“相反，它们在很程度上依赖于将通用机器学算法应用于越来越的数据集，并得到现代计算机惊人的速度和存储容量的支持。”

▲人工智能

三、真正了解学意义的AI才真“智能”

身为认知科学家和计算语言学家的McShane表示，机器学必须克服几个障碍，其中首先是意义的缺失（真正让计算机了解学的意义，而不是单纯的背答案）。

“统计/机器学（The statistical/machine learning，S-ML）方法并不试图计算意义（compute meaning）（目前的计算机学仅能进行数据处理，并不能真正理解数据的含义）。”McShane说。“从业者（分研究人员）认为单词（在句子中）足够代表它的含义，但事实并非如此。当涉及到完整的上下文意义时，一个句子中的单词（意思）只是冰山一角。对人工智能来说，混淆词语的含义就像把船开向冰山一样令人担忧（人工智能在不能完全正确理解语言指令含义的时候，会导致后续的一系列错误）。”

在多数情况下，机器学系统通过缩小任务范围或扩数据集来回避处理词义的问题。但是，即使一个型的神经网络能够“创作”一段长文本并保持语义的连贯性，它仍然不能理解它所“写”的词句的含义。

“人们可以搭建一个看起来十分“智能”的系统，但实际上它们（人工智能）并不知道发生了什么（例如，GPT-3）。”McShane说。

▲GPT-3

所有基于深度学的语言模型，只要你问它们一系列琐碎但相关的问题，它们就会开始崩溃，因为它们的参数无法捕捉日常生活中无限的复杂性。在这个问题上投入更多的数据并不能让它们变得更加“智能”。

四、赋能AI突破语言学的瓶颈

在他们的书中，McShane和Nirenburg提出了一种不需要求助于纯机器学（纯机器学需要量数据），而且解决了自然语言理解的“知识瓶颈”的方法，它被称为“语言赋能智能体（LEIA）”。它有三个关键特征:

1.LEIAs能够理解敏感语境下的语言含义，不至于造成歧义。

2.LEIAs可以向人类解释它们（AI）的思想、行动和决策

3.LEIAs能够在与“世界”互动中终身自主学，减少人类对其扩展知识库的需求。

LEIAs对自然语言进行了六个阶段的处理，从确定单词在句子中的作用，到语义分析，最后到情景推理。这些阶段使得LEIA能够解决单词和短语不同含义之间的冲突，并将句子整合到主体工作的更广泛的环境中（将句子的表达方式调整的更像人类的语言）。

LEIA为它们的语言表达设置了信心水平，并知道它们的技能（语言技巧）和知识在哪里达到了它们的极限。在遇到理解力的极限的情况下，它们能与人类(或其他高等智能)进行交互以解决语言歧义的问题。这些互动反过来使它们能够学新事物，扩它们的知识储备。

LEIA将句子转化为文本意义表述（text-meaning representations，TMR），即句子中每个词的可解释和可操作的定义。根据其（语句）背景和目标，LEIA决定哪些语言需要跟进处理。例如，如果一个维修机器人与几个人类技术人员处在同一个机器维修的车间，而人类在讨论昨天的体育比赛结果，那么人工智能应该能够区分与它的工作（机器维修）相关的句子和它可以忽略的句子（体育）。

LEIAs主要使用knowledge-based systems，但它们也在处理语言的过程中使用了机器学模型，特别是在语言处理句子解析的初始阶段。

五、AI真的需要模拟人类脑思维吗？

LEIA的主要特点之一是整合了知识库（knowledge bases）、推理模块（reasoning modules）和感觉输入（sensory input）。目前，计算机视觉（computer vision）和自然语言处理等领域的重叠很少。

正如McShane和Nirenburg在他们的书中所指出的，“语言理解不能脱离整体认知（overall agent cognition），因为语言理解有时也需要其他感知模式（如视觉）的辅助。

在现实世界中，人类利用丰富的感官体验来填补语言表达的空白（例如，当有人告诉您“看那边？”时，他们假设您可以看到他们的手指指向的位置，并补充信息）。人类对话的思维逻辑能做出假设并略语言中的细节。我们希望与我们交互的智能代理（intelligent agent）都具有类似的功能。

“我们完全理解为什么单独处理的方式（silo approaches）是现在的常态，毕竟解决每一个问题都很困难，而且每个问题都需要单独进行研究，”McShane说。“然而，如果不进行整合，问题是无法从根源解决的（人工智能语言学的发展应该整合多个模式）。”

同时，实现类似人类的思考逻辑并不要求LEIA完全复制人类脑。McShane说：“至少在这个发展阶段，神经科学（neuroscience）不能为我们的认知建模（cognitive modeling）提供任何语法上和内容上的帮助。”McShane和Nirenburg认为，复制脑并不能为人工智能解释目标（语句）所服务。

▲人工智能2

结语：让AI像人一样使用语言仍需时间

McShane和Nirenburg提出了LEIA作为新的人工智能学方法，这不仅减少了训练所需的数据量，而且解决了自然语言理解存在的“知识瓶颈”问题。

同时，他们也承认LEIA是一个持续的、长期的、范围广泛的工作计划，有很多工作需要做。而最终的目标就是“使机器能够像人类一样熟练地使用语言”。

来源：venturebeat