今年早些时候,微软宣布将斥资197亿美元收购云计算和人工智能软件的领导者nuance。该公司提供了支持电子健康记录的AI集成软件,这标志着这家科技巨头在医疗保健领域加了扩张力度,电子健康记录具有丰富文本和复杂数据的特点,非常适合人工智能的一个分支-自然语言处理(NLP)。NLP允许计算机理解非结构化的书面或口头数据。它在提高医疗记录可用性方面的应用前景引起了医疗卫生领域的商业兴趣,尽管在医疗卫生领域使用NLP技术实现自动化还需要几年时间,这一方向在过去五年中受到了业界和学术界的广泛关注,根据约翰·斯诺实验室今年3月的一份调查报告,36%的受调查医疗公司计划在2021年底前署NLP技术。一位行业分析师指出,“NLP本身不会有太影响,但当与计算机视觉等其他前沿算法结合时,它可以简化许多过程,发现潜在的模式或条件,并加快做出正确决策的速度。”
在2021的ACL中,NLP在医学领域的应用也成为接收论文的一个主要主题。共有14篇文章(9篇长论文和5篇短论文),总结如下:基于神经转换的疾病命名实体识别和规范化联合模型,为许多下游应用提供了巨的机会。基于多任务学框架的神经联合模型虽然已经达到了最先进的性能,但由于解码过程的分离,存在边界不一致的问题。此外,它忽略了词汇表中每个概念的丰富信息,这对于实体规范化非常重要。在这项工作中,我们提出了一种基于神经变换的联合模型来缓解这两个问题。在两个公开数据集上的实验结果表明了所提方法的有效性:http://dx.doi.org/10.18653/v1/2021.acl-long.219医疗命名实体识别和规范化的端到端渐进式多任务学框架摘要:医疗命名实体识别(NER)和规范化(Nen)是构建知识地图和QA系统的基础,但NER的错误预测将直接影响Nen的结果。因此,NER模块是整个系统的关键。为了克服现有模型的不足并使用两种广义表示,我们设计了一种端到端渐进式多任务学模型,以有效地联合建模NER和Nen。两个公开的医学文献数据集的实证结果表明,我们的方法优于九种传统方法,渐进式任务可以通过增量任务设置减少错误传播来提高性能。使用上下文特征来丰富NER提取的实体提及的语义信息。将知识库中的标准实体引入到NER模块中,以正确提取相应实体的纸质链接:http://dx.doi.org/10.18653/v1/2021.acl-long.485基于知识增强的抽象度量表示的生物医学文献细粒度信息提取:从科学文献中提取生物医学信息面临两个独特而重要的挑战。首先,科学论文中的句子通常在知识点之间有更广泛的上下文。此外,对科学实体的细粒度理解迫切需要特定领域的背景知识。在本文中,我们提出了一种新的生物医学信息提取模型来应对这两个挑战,并从英文研究论文中提取实体。genia 2011数据集上的实验表明,抽象意义表示和外知识分别占绝对F分数增益的1.8%和3.0%。为了评估我们的方法对涉及特定主题的现实世界问题的影响,我们还创建了一个新的本体和注释语料库,用于新冠肺炎-19科学文献的实体提取,它可以作为生物医学信息提取的新基准,利用边缘条件图注意网络构造生物医学信息提取任务的抽象意义表示(AMR)图。从外知识库构建句子级知识图,并使用它来丰富AMR图http://dx.doi.org/10.18653/v1/2021.acl-long.489从生物医学文本中提取信息需要更广泛的领域知识。然而,许多以前的信息提取方法在推理过程中不使用任何外知识。受人类如何找到相关信息来理解科学文本的启发,我们提出了一个新的框架,该框架使用外知识来提取联合实体和关系,称为keci(知识增强集体推理)。在两个不同的基准数据集上的实验表明,该框架非常有效。给定输入文本,keci首先构建一个初始跨度图来表示其对文本的初始理解;然后,使用实体链接形成知识图,其中包含文本中提到的实体的相关背景知识;为了做出最终预测,keci使用注意机制将初始跨度图和知识图融合成更精细的图,并使用图卷积网络将全关系信息集成到表示中:http://dx.doi.org/10.18653/v1/2021.acl-long.488生物医学领域内隐语篇关系分类的实体增强摘要:内隐语篇关系分类是一项具有挑战性的任务,尤其是当文本领域不同于标准训练语料库领域时。本文主要研究生物医学领域内隐语篇关系的分类问题。结果表明,实体信息可以用来改善话语关系的参数表示http://dx.doi.org/10.18653/v1/2021.acl-short.116基于能力的医疗报告生成多模式课程学决策支持系统摘要:医疗报告生成任务的目标是生成不断增长且连贯的医疗图像描述。与一般的图像字幕任务不同,医疗报告的生成对于数据驱动的神经模型来说更具挑战性。这主要是由于1)严重的数据偏差和2)有限的医疗数据。为了减少数据偏差,充分利用现有数据,我们提出了一个基于能力的多模式课程学框架(CMCL),该框架模拟了放射科医生的学过程,并对模型进行了逐步优化。在公共IU X射线和模拟cxr数据集上的实验表明,CMCL可以并入现有模型以提高其性能。首先,CMCL评估每个训练实例的难度,并评估当前模型的能力;然后,CMCL根据当前模型能力选择最合适的训练实例批次。通过以上两个步骤的迭代,CMCL可以逐步提高模型的性能:http://dx.doi.org/10.18653/v1/2021.acl-long.234通过记忆书写:基于分层检索的医疗报告生成摘要:医疗报告生成是医学图像分析中最具挑战性的任务之一。虽然现有的方法已经取得了令人满意的结果,但它们要么需要一个预定义的模板数据库来检索句子,要么忽略了医疗报告生成的层次结构。为了解决这些问题,我们提出了medwriter,它结合了一种新的分层检索机制来自动提取报告和句子级模板,以生成准确的临床报告。我们分别在自动评估数据集open-i和手动评估数据集Simulate cxr上验证了我们的模型的有效性medwriter首先使用VLR模块检索给定图像的最相关报告;然后,引入LLR模块,根据之前生成的描述检索相关句子,以确保生成的句子之间的逻辑一致性;最后,语言解码器将图像特征与检索到的报告和句子的特征相结合,以生成有意义的医疗报告http://dx.doi.org/10.18653/v1/2021.acl-long.387我们提出了一种文本表示方法,可以通过有效的数据融合和注意策略,将同一输入的不同视图(表示)结合起来进行排序。我们的模型可以应用于鉴别诊断问题,其目的是使用来自未诊断疾病网络的数据,找到与患者临床描述相匹配的最可能的疾病http://dx.doi.org/10.18653/v1/2021.acl-short.128自动问答系统是一种逐步实现多任务、多数据处理的软方法参见2021 ACL中NLP应用程序在医疗领域的开发,以及资源下载
1