药物所与阿尔脉联合团队摘取分子翻译国际挑战赛冠军
发布于 2021-06-10 由 zhaojunli 发布
经过3个月的激烈角逐,由著名数据科学竞赛平台Kaggle举办的百时美施贵宝-分子翻译大赛已于北京时间6月4日上午8点结束。此次比赛吸引了来自世界各地的近千名数据科学家参加。由阿尔脉生物科技刘小红博士与中国科学院上海药物所药物发现与设计中心博士生钟飞盛、熊嘉诚组成的“SIMM DDDC”联合团队,在郑明月研究员指导下,从874只队伍中脱颖而出,获得了此次大赛的第一名(见图1)。

图1 分子翻译大赛排名
本次比赛的目标是从图片中识别化学结构并将其转换为国际化合物标识 (International Chemical Identifier, InChI)。在期刊和专利等出版物中,有机分子通常是由化学结构式来描述,自动地从此类文件中识别化学结构可以让化学家快速地获取信息用以决策。此外,分子图像翻译得到的InChI文字化学式可以视作包含丰富语义的文本数据,可以与同样是文本形式描述的生物、药理等其他数据和信息更方便的进行整合,从而形成系统的数据库。
数据是算法的基石,如何有效地获取高质量的数据集用于建模是药物研发领域亟待解决的问题。“SIMM DDDC”队伍开发的算法能从图片中准确地提取化合物的结构信息,该方法可以用于真实世界的化学文献和专利数据的自动挖掘和分析,这将极大地促进生物医药大数据的构建,进而为后续人工智能算法的开发奠定坚实的基础。
推荐文章
关注阿尔脉公众号

-获取更多-
精彩内容
随时掌握最新动态
关注阿尔脉领英

-获取更多-
精彩内容
随时掌握最新动态