
8 月 11 日,「AI 蛋白质预测奠基人」许锦波领衔的分子之心团队宣布, 在蛋白质结构预测领域取得一项重要进展。
8 月 11 日,「AI 蛋白质预测奠基人」许锦波领衔的分子之心团队宣布, 在蛋白质结构预测领域取得一项重要进展。基于 AI 的单序列蛋白质结构预测算法 RaptorX-Single 可以在不使用 MSA(来自同源蛋白质的多序列比对) 的情况下, 从其一级序列直接预测蛋白质结构, 并实现超越 DeepMind AlphaFold2 等方法的性能。同时,RaptorX-Single 所采用的模型更轻量, 参数不到 Meta ESMFold 方法的三分之一。
「只用 AI, 不使用同源序列和共进化信息的单序列蛋白质结构预测将是行业发展的必然趋势, 也是分子之心发展路线中的既定规划,」许锦波表示, 分子之心团队已经在预测蛋白质结构方面实现了「三级进化」:从 AI+共进化信息+序列谱开始, 到仅使用 AI+序列谱, 再到纯 AI 方法,「分子之心将使用基于 AI 的单序列蛋白质结构预测方法, 进一步扩大人类在蛋白质结构预测领域的探索效率和边界」。
(分子之心 RaptorX-Single 算法架构示意图)
自 2016 年许锦波教授研发出 RaptorX-Contact 方法, 开启 AI 蛋白质结构预测时代之后,DeepMind、Baker 等研究团队相继推出了 AlphaFold2、RoseTTAFold 等 AI 蛋白质结构预测模型。AI 在蛋白质结构预测领域的应用已从星星之火, 掀起了燎原之势。但在推动生物行业巨大进步的同时, 这些 AI 算法始终存在一个重大局限, 即高度依赖 MSA 及其衍生的共同进化信息和序列谱来预测蛋白质结构, 无法对孤儿蛋白等缺乏同源进化信息的蛋白质进行高精度结构预测。
众所周知, 自然界中的蛋白质折叠并不需要知道其同源序列及任何共进化信息。因此, 从理论上来说, 对蛋白质结构的预测仅从它的序列信息中即可实现。但目前的 AI 蛋白结构预测算法普遍需要提前搜索序列库、构建 MSA 才能进行结构预测。
这一固有路径存在两大局限。一是搜索蛋白质同源序列需要大量时间, 随着技术的不断发展, 序列数据库正在持续高速增长, 时间和成本的投入巨大。比如,UniRef100 目前有约 3 亿个序列, 如果采用 RaptorX、trRosetta、AlphaFold、RoseTTAFold 等传统方法, 使用同源序列和共进化信息作为输入, 需要巨量的计算时间和算力成本。二是并非所有蛋白质都有足够多的同源序列, 比如对于孤儿蛋白等小型蛋白质家族, 基于 MSA 的预测方法始终表现不佳。
在此背景下,「不使用同源序列和共进化信息的 AI 蛋白质预测方法」在近两年成为了业界共同探索的新方向。分子之心团队在 2021 年就在 Nature Machine Intelligence(https://www.jiqizhixin.com/articles/2021-05-26-3) 发表论文指出不使用共进化信息,AI 仍可以预测很大比例的自然界的蛋白质和复合物结构, 以及几乎所有的人工设计的蛋白质结构。哥伦比亚大学、南开大学、Meta 等国内外企业和研究团队, 也都陆续发布了相关技术和论文。然而, 目前的方法在速度、成本, 以及孤儿蛋白结构预测上, 仍然存在巨大的局限。
许锦波教授领衔的分子之心团队, 基于自研的 AI 蛋白发现与设计平台 MoleculeOS 创造了一种独特的模型组合方式, 提出了不明显使用同源序列和共进化信息的 AI 蛋白质预测算法 RaptorX-Single。该算法由氨基酸编码模块 (整合多个蛋白质语言模型)、修改后的 Evoformer 模块和结构生成模块组成。蛋白质语言模型均为目前已公开的预训练模型, 且可以支持同时用多个模型输入, 可以直接从一级序列预测蛋白质结构, 而无需明确使用同源序列, 预测准确性高且使用方便。
(在蛋白质 7W5Z_T2 和 6O0I_A 上, 分子之心 RaptorX-Single 算法的性能明显优于基于 MSA 的 AlphaFold2)
分子之心在论文中提出, 相比全球已公开的同类算法模型的实验结果,RaptorX-Single 算法在三方面实现了领先:
一是实现了孤儿蛋白等没有同源序列的蛋白质结构预测从 0 到 1 的突破, 且测试结果远好于 AlphaFold2。
(Orphan11 数据集包含 11 个没有任何同源序列的孤儿蛋白, 分子之心 RaptorX-Single 算法优于 AlphaFold2 和 RoseTTAFold)
二是实现了比 AlphaFold2 更快的运行速度, 极大提升了蛋白质结构预测效率。
(与 AlphaFold2 的运行时间比较, 分子之心 RaptorX-Single 算法具有明显优势)
三是在预测结果相当的情况下,RaptorX-Single 所用的蛋白语言模型参数仅 43 亿, 远低于 Meta 蛋白质预测模型 ESMFold 高达 150 亿的参数量, 极大降低了大算力芯片的高昂成本, 对于该算法进一步产业化应用提供了可行条件。
虽然分子之心已经完成了 AI 蛋白质结构预测三级进化,「唯 AI 化」的蛋白质结构预测已经取得重要进展, 但值得关注的是, 分子之心仍在相关论文中指出, 不管是自身的算法还是业界已发布的 AI 算法, 目前仍然无法准确预测没有任何同源序列的孤儿蛋白的正确折叠。当前几乎所有声称基于单序列的深度学习方法仍然隐含地利用了蛋白质的同源信息。「我们正在开发一种方法, 可以直接从其一级序列预测蛋白质结构, 而无需隐含使用任何同源信息, 这种方法才可以正确地预测孤儿蛋白的结构。」许锦波表示, 分子之心正在对孤儿蛋白等特殊蛋白质结构预测进行深入探索。
但同样值得关注的是,RaptorX-Single 等单序列蛋白质结构预测算法的出现, 正在不断提升蛋白质结构预测相关难题的解决效率, 拓宽人类对蛋白质结构探索的边界。随着算法持续进化, 关于蛋白质复合物结构、蛋白质和其他分子的相关作用、抗体抗原相互作用等蛋白质结构预测的其他难题, 将逐一得解。大分子制药领域, 以及拥有更广泛应用场景和更具差异性市场竞争力的蛋白质设计领域, 也将因此迎来更可预期的未来。
来源:互联网