首页 > 新闻动态 > 阿尔脉联合上海药物所发布生物医药文献的化学信息自动提取系统

阿尔脉联合上海药物所发布生物医药文献的化学信息自动提取系统

发布于 2023-09-27 由 zhaojunli 发布
近年来,人工智能(AI)技术在从生物医药数据库中学习知识方面已经取得了巨大进展,但还有大量的生物医药知识并没有以结构化的数据形式存储在数据库中,而是隐藏在原始的科学文献中。因此,直接从生物医药文献中挖掘和学习知识是未来人工智能的一个重要应用场景。在生物医药文献中,化学结构信息主要通过软件或手工绘制的图像传播数据,此类图像内容的读取与检索非常困难。在过去的几十年间,一些基于规则或深度学习的光学化学结构识别(OCSR)工具已经被开发了出来,它们在理想条件下有望产生超过90%的准确率。但真实世界的文献往往存在一定程度的图像损坏和背景噪声,这会显著地降低这些OCSR模型的性能。至于旧文献中的手工绘制化学结构,当前还没有OCSR工具对其显示出识别能力。


为了解决上述问题,近期阿尔脉联合上海药物所发布了生物医药文献的化学信息自动提取系统:αExtractor。αExtractor在常见基准数据集和自行收集的数据集上都显著优于最先进的方法。相关研究论文“αExtractor: a system for automatic extraction of chemical information from biomedical literature”已在Science China Life Sciences上发表。


在αExtractor中,分子图像识别使用的是一个图像注释模型,包括一个残差神经网络、一个Transformer编码器和一个Transformer解码器(图1)。研究团队设计了一种新的表示语言,将表示化学键类型的标记嵌入到了分子SMILES中。修改后的SMILES不仅包含原子类型和原子间连通性的信息,还包含精确的化学键类型信息,例如实心楔形键、交叉双键等。除了分子的SMILES,分子图像识别模型还会预测原子的坐标。当模型生成分子的SMILES序列时,它会同时生成表示原子x轴和y轴坐标的两个序列。坐标序列的长度与SMILES序列相等,由坐标标记和填充标记组成。坐标序列中的坐标标记与SMILES序列中的原子标记对齐。基于模型预测的SMILES、原子坐标和化学键类型,即可构建出与图像中分子完全一致的分子图,这使得我们能够快速判断模型预测的分子是否正确。研究团队使用PubChem数据库中分子的SMILES合成分子图像,以训练图像注释模型。文献中分子图像的检测使用的是基于ResNet-Transformer架构的目标检测模型。该模型在合成和人工标注的PDF文档上进行训练,用于确定文献中的化学结构图像的位置。


图片


图1. αExtractor系统的架构和性能


在这项工作中,阿尔脉联合上海药物所结合图像注释、目标检测和合成计算机视觉等技术,开发了一个从文献中自动提取化学结构的深度学习系统。凭借着高的识别精度和处理速度,αExtractor有望助力于生物医药文献的自动化挖掘和数据驱动的分子设计。为了方便社区,αExtractor现在可以在线上免费使用(https://extractor.alphama.com.cn/csr),同时阿尔脉还提供了功能更加丰富、体验更加完善的商业版(https://patmap.alphama.com.cn)。


上海药物所博士研究生熊嘉诚、阿尔脉生物科技有限公司的刘小红博士和李召军博士为该研究论文的共同第一作者,文章的通讯作者为中国科学院上海药物研究所的郑明月研究员。


全文链接https://www.sciengine.com/SCLS/doi/10.1007/s11427-023-2388-x