分子表征算法的发展与前沿

中原富国科技网 2022-04-17 2

本期共4333字，阅读时间约9分钟

<01

导论

随着生物技术的快速发展，学术界和工业界逐渐积累并形成了巨的数据资源。药物相关信息的数字化和形式化保存可以通过算法带来更多有价值的信息。最的数据之一是化学分子数据。到目前为止，人类已经发现了无数的分子。同时，近年来，许多机构也收集整理了相应分子的理化性质和临床数据库。这些数据包含了量的知识和信息。如何从来自不同来源的量不同相关数据中挖掘有价值的信息，最重要的手段是分子表征学

通过机器学进行分子表征学是近年来一个非常流行的方向

众所周知，尽管近年来机器学算法取得了很的进步，目前的机器学算法在很程度上依赖于输入数据的质量。在分子表征学中，数据的输入非常关键，输入格式尤其重要

因此，在正式介绍如何通过机器学算法进行分子表征学之前，让我们先来看看当前的分子表征方法，即，什么形式的数据被发送到机器学模型中

既然我们想通过机器学挖掘信息，我们必须统一分子表示规范（至少在一个模型训练和预测阶段），并将分子表示为计算机可读的向量或矩阵，需要提到的是分子描述符，那么什么是分子描述符呢

来自他的正式定义：

“逻辑和数学过程的最终结果，该过程将分子符号表示中编码的化学信息转换为有用的数字或某个标准化实验的结果。”Todeschini R，Consonni V（2009）化学信息学的分子描述符。威利·威恩海姆。[1]

一个逻辑和数学过程的最终结果，该过程将分子符号表示中编码的化学信息转换成有用的数字或一些标准化实验的结果。

的正式定义确实有些抽象。然而，简而言之，所谓的分子描述符指的是对分子在某一方面的性质的测量。它可以是分子的物理和化学性质，也可以是根据分子结构通过各种算法得出的数值指标。目前的分子描述符类型复杂，数量众多，分类方法多样。它们通常分为定量描述符和定性描述符，也称为分子指纹。定量描述符包括基于分子图论的描述符、分子组成、物理和化学性质等。定性描述符通过某种编码来表示分子结构和性质，分子描述符也可以根据维度进行划分：

不同维度的分子描述（四个维度代表基于分子动力学时间序列的维度）

不同的分子描述符有各自的优缺点。通常，根据机器学的模型结构选择一个或多个。一般来说，描述符的维数越高，它们包含的信息就越多。简言之，分子描述符与分子结构的概念密切相关，在基础科学研究中起着非常关键的作用。同时，分子描述符基于量子化学、信息论、图论、有机化学等理论。它们用于预测分子性质、识别与生物活性相关的结构特征、为新药选择候选亚结构等，然后将分子描述符作为机器学模型的输入，并将机器学算法应用于分子的表示学。机器学凭借其在高维空间的描述能力，可以进一步帮助研究人员抽象、简化和估计复杂系统

分子表征算法的发展

为什么要进行深度学？如前所述，机器学凭借其在高维空间中的描述能力，可以进一步帮助研究人员抽象、简化和估计复杂系统。然而，传统的机器学算法多需要人工构造特征，不同特征的工程时间和成本都很高，对模型的影响很。近年来，随着深度神经网络的发展，该模型将研究人员从复杂而耗时的特征工程中解放出来。分子表征学正式进入深度学时代

目前主流的分子表征算法可以简单地分为两类：一类是基于smiles序列输入的序列模型，另一类是基于smiles序列输入的序列模型的基于分子图的图模型，通过将微笑与文本进行比较，借鉴序列模型在语言处理中的成功经验，使用RNN等序列模型对一维分子描述符进行建模，并将RNN的隐藏状态作为下游任务的分子表示。同时，这种模型利用自动编码器的思想将学到的表连接到解码器网络，解码器网络也可以用来生成具有特定性质的新分子，在这种模型中，还可以引入强化学和注意的概念，以进一步提高性能，模型的泛化能力和可解释性[2]

介绍了强化学的分子生成过程

除了直接将微笑序列输入到序列模型（如RNN）中，研究人员还将输入序列视为一个组合，每个符号都被视为一个单词。在自然语言处理中使用word2vec技术，所有微笑序列可以被视为有限字典中特定数字元素的组合，字典中元素的表示可以通过预训练获得，它们用于获得下游任务的微笑特征[3]。<2sp]在同一时间，使用不同的分子模型[2sp]任务训练下游分子。分子图模型

这种模型将分子视为图，将原子或基团视为图上的节点，将化学键视为图上的边

近年来，随着数据多样化的增加，对非欧式结构数据处理和挖掘的需求也进一步增加。非欧洲结构数据的处理算法已经取得了很进展。其中，图算法也被应用于分子表征领域。目前，图论算法可分为两类：一类是基于滤波的频域（如GCN）算法，另一类是基于邻域聚集的空域算法，尽管在分子表征领域，多采样空域（如GAT）算法的本质是相同的。空间图卷积算法的本质是通过聚集相邻原子的信息来更新目标原子的信息，获得原子的表示，然后通过reagout函数获得分子级表示，或者在分子图中设置一个与其他原子相连的超级节点，并将其表征视为分子表征。基于图表示学的分子表示可以将结构信息注入到分子表示中，在许多方面都优于序列模型

图卷的节点更新过程

随着变压器结构的入侵，基于变压器结构的型模型在越来越多的领域取得了巨成功。在自然语言处理领域，由于Bert的出现，研究范式逐渐变成了预训练+微调的模式，transformer在视觉领域取得了很进展。同时，分子表征领域的研究人员也尝试引入基于tansformer的模型和预训练+微调模式。然而，smiles格式的直接输入预训练变压器不能充分利用结构信息。最近的一些工作研究了一些方案。在mg-bert[5]的预训练过程中，在计算自我注意后进行信息聚合时，根据原子之间是否存在边缘进行信息聚合，以表达分子的拓扑信息。微软亚洲研究人员的最新成果Graphormer[6]直接在模型中添加了三个图形结构代码，以便充分利用图形结构信息进行分子表征学，并在多个图形级任务中取得了最好的效果

图形格式的三种编码方法

<05

随着多学科融合的进一步深入，一种新的算法

标签：算法机器学习