
6 月 19 日消息, 国际顶级期刊《Nature Machine Intelligence》发表了阿里云 AI for Science 的研究成果 LucaOne。
6 月 19 日消息, 国际顶级期刊《Nature Machine Intelligence》发表了阿里云 AI for Science 的研究成果 LucaOne。这是业界首个联合 DNA、RNA、蛋白质的生物大模型。该大模型学习了超 16 万个物种的 12 亿条核酸序列及 6 亿条蛋白序列数据, 不仅可以挖掘核酸、蛋白质的内部特征, 还可识别核酸与蛋白质之间的联系, 帮助研究人员探索更多生物系统的内在逻辑与规则。
Nature Machine Intelligence(以下简称 NMI) 是 Nature 于 2019 年创立的期刊, 收录方向覆盖计算生物学、模式识别和计算机视觉等多个领域, 期刊影响因子一直位居行业前列, 是业界公认的人工智能和机器学习领域的国际顶级期刊。
据介绍, 阿里云研究团队首次基于 DNA、RNA 和蛋白质等生命科学领域最主要的数据进行混合训练, 涵盖 12 亿条核酸序列和 6 亿条蛋白序列, 同时引入生物领域内基础的标签信息, 让模型学习到丰富的生物信息。在模型结构上, 研究团队采用 Transformer-Encoder 架构, 在自监督学习的基础上, 设计了 8 个不同级别的半监督学习任务, 有效增强模型的学习能力。
(LucaOne 技术框架)
实验结果显示, 在中心法则验证 (CentralDogma)、物种 Genus 分类 (GenusTax)、蛋白质位置 (ProtLoc)、蛋白质稳定性 (ProtStab)、非编码 RNA 的类型 (ncRNAFam)、流感病毒预测 (InfA) 等 8 个下游任务验证中,LucaOne 的表现均领先于现有的生物大模型。
NMI 表示:该研究展示了对分子生物学中心法则的全新理解, 极大地增强了研究人员对生物信息学分析的能力, 可以帮助人类探索分子生物学的未知领域。
据介绍,LucaOne 的模型代码、训练代码、推理代码等已全面开源, 科研人员可基于该模型进行二次训练、垂直领域生物模型构建、Embedding 推理、Embedding-based 分析、Embedding-based 下游模型构建等。目前全球已有 10 多家公司和团队使用该模型。
过去几年, 阿里云积极与国内高校和研究机构展开合作, 在生命科学领域已发表核酸和蛋白质统一基础模型-LucaOne(NMI 2025)、RNA 病毒发现-LucaProt(Cell 2024)、磷循环蛋白家族识别-LucaPCycle(NC 2025) 等研究成果。
来源:互联网