
首个跨模态、生命科学领域大模型体系「xTrimo」
GPT-3 于 2020 年发布,其参数之大震惊学界。但直到近 2 年后的今天,它的影响力才波及到普通大众。ChatGPT 是历史上最短时间获得 1 亿用户的应用。这引发了全球性的主流大语言模型研发热潮。
大模型的能力不仅仅局限在语言领域。在生命科学领域,百度 CEO 李彦宏发起创立的生命科学技术公司百图生科,2 年前就也开始打造生命科学大模型体系「xTrimo」。
近日,百图生科 CTO 宋乐博士在一次小型的交流会上,和极客公园等媒体进行了交流,透露了更多「xTrimo」背后的技术逻辑,以及未来的进化方向,个中技术经验和行业观察。
宋乐博士是著名的机器学习和图深度学习专家,曾任美国佐治亚理工学院计算机学院终身教授、机器学习中心副主任,阿联酋 MBZUAI 机器学习系主任,蚂蚁金服深度学习团队负责人(P10)、阿里巴巴达摩院研究员,国际机器学习大会董事会成员,具有丰富的 AI 算法和工程经验。
自 2008 年起,宋乐博士在 CMU 从事生物计算相关的研究,利用机器学习技术对靶点挖掘、药物设计取得了一系列突破性成果,获得 NeurIPS、ICML、AISTATS 等主要机器学习会议的最佳论文奖。社区服务方面,他曾担任 NeurIPS、ICML、ICLR、AAAI、IJCAI 等 AI 顶会的领域主席,并出任 ICML 2022 的大会主席,他还是同行评议期刊 JMLR、IEEE TPAMI 的副主编。
宋乐博士介绍,整个模型体系涵盖生命科学里面的不同相当尺度的信息,包括分子尺度、细胞尺度、组织尺度。目前,参数量已经达到万亿级,能够理解为一个帮助人类解读生命、预测生命、改造生命的全新交互界面。
一系列重大技术攻关,使得「xTrimo」体系最终能够理解生物数据之间关联性,表征单体蛋白质、蛋白质相互作用、免疫细胞、免疫系统等多层次生物问题。
他表示,「xTrimo」模型体系成功在多个面向生命科学的重大任务中刷新行业纪录,同时推动 AI 制药业务发展。
以下为对话内容:
生命科学领域大模型,需要实验数据进行补充
「xTrimo」这个名字是什么来的?为什么百图生科 2 年前会想到要做这个生命科学大模型?
宋乐:「xTrimo」是其全称几个英文字母的缩写,翻译过来就是跨模态的、基于 Transformer 的预训练模型,整个英文连起来是 Cross-model Transformer Representation of Interactome and Multi-Omics,所以都取了这几个英文字母的首字母,然后形成一个缩写「xTrimo」。
它的读音有一种英文单词「极限」的味道。实际上它也有几个可以说世界之「最」的地方。
首先,整个模型体系涵盖生命科学里面的不同相当尺度的信息,包括分子尺度、细胞尺度、组织尺度等。
然后,构建这个模型体系所用到的数据可能是世界最大级别的,它用到了十亿级的蛋白质数据,百亿级的蛋白质相互作用数据,亿级的单细胞数据,以及百万级以上的细胞扰动数据。
最后,模型参数也很大。比如在蛋白质层面的预训练模型,达到大概千亿级别的,也是世界上最大的预训练模型。单细胞尺度上的数据在亿级以上,也是目前世界最大的。
同时,它的下游模型,比如抗体抗原复合物的结构预测、亲和力预测,单细胞在扰动下面的响应预测等等都达到了业界的最优水平。
我们用大量的数据,用很长时间对大模型进行预训练,(可能每一次大模型的训练几个月);之后再通过微调,来适应下游模型,最终构建了这样一个模型体系,它可以去解决「AI + 生命科学」相关的问题。
至于为什么在 2 年前就笃定要做这件事。从某种意义上说,也得益于我们当时的创始团队中有许多不同背景的人的思想碰撞。
其实我以前更多的是在通用人工智能方向,所以对像大规模的预训练模型,图像、文本,以及下游任务的应用是一直都很了解的。
「ChatGPT」出来之前,Open AI 做了一系列工作,在大模型+下游任务适配的路上前进,都有很多阶段性的结果。
它对我们的启示是来自范式层面的,即解决人工智能问题的范式实际上可以迁移到生物的领域里来,通过大规模的预训练,然后再通过少量的和任务相关数据的微调或者是适配,能够得到一个更加准确的模型。
有了这个判断,我们与团队里非常专业的生物免疫科学家、在大的 MNC 做了很多年的生信科学家交流,得知生物领域其实也积累了海量的数据,包括刚刚说的几十亿的蛋白质数据,而且不断的增长,很多的单细胞数据。
所以,当时公司就为生命科学大模型去做了这方面的布局,才有今天比较完备的人才体系,以及大模型和试验的闭环体系。
从生命科学领域来看,现有的数据量来看它可能没有那么大,我们在这种有限的数据量,是如何把这个工作做的更好,然后我们在这边做了哪些工作?
宋乐:这个问题,应该说数据大也不大。有两方面。刚刚所说的这些非监督的预训练数据是巨大的,已经是百亿千亿这种级别,所以它训练出来的是一些通用语言模型。
打个比方,就好像在互联网上用大量的数据来训练它,得到的是个通用模型;但是如果想把这个模型再微调到比如销售航空的产品,或者金融产品,实际上那样的数据就比较少。
同理的情况下,在 AI for life science 领域也是类似的,这种通用的数据很多。
训练通用模型是用大的数据、大的模型、大的计算量去实现的。
但是,缩小到我们所感兴趣的一个疾病,比如某种类型的癌症和肿瘤的某个靶点,它的抗体的数据就会相对比较少,公开领域里面基本上没有。这也是药物设计的难点。
所以在这种情况下,就需要给通用模型提供良好的表征才行。
如果通用模型能够学一些相关表征,或者一些通用的能力,那么它可以减少对你最感兴趣疾病数据的搜集需求。可以使你在收集比较少的数据时,仍然获得一个比较准确的模型。
另一方面,只有模型体系本身是不够的,它需要真正的实验数据来补充。
就相当于你经过幼儿园、小学、中学教育,拥有了比较通用知识表达能力,还有一些逻辑分析、数理分析的能力。但是你要把模型变到一个非常专业的领域,比如要变成化学家和文学家,还要经过几年的大学教育去适配它。大模型体系针对某一个生物问题,是需要适配过程的。
我们也把 xTrimo 大模型体系和相关的验证实验体系结合,并不是一个开环的预测就结束了,它是一个闭环的系统验证。
通过我们内部的验证,以及强化学习这样的闭环迭代方式,使大模型适配到你最感兴趣的一个疾病靶点上面,并且这种迭代方式会使模型越来越准确,对于相关数据的需求会越来越小,另一方面在实验方面效率会越来越高。
举一个具体的例子,比如说在研究某种创新药的同时,我们这种有限的数据量怎么实现?
宋乐:比如说有一些成药的靶点。
最简单的可能大家都知道的 PD1 的例子,当然这个有很多人研究,已经有很多数据了。你可以想象,假如说没有数据,可能一开始要建一个 PD1 和抗体相结合非常准确的模型,可能就要搜集几十万的数据才行。
但是,这样整个数据的生成的周期或者是造价都很昂贵。
如果你有这么一个通用预训练模型,它在 PD1 靶点上要搜集的一些数据,可能就只要几百条或者是几千条就可以了,把量级降低了 10 倍或者是 100 倍,你就有足够准确的模型,根据这个准确的模型就可以预测。
假如是修改抗体的序列,它的亲和力怎么样变化,它们和抗体抗原之间结合怎么变化,可以把一些好的设计去有点像推荐出来,再去做试验,做试验的次数就很少,而且做试验验证的都是比较有潜力的一些设计,这样整体就可以减少试验次数,闭环迭代的次数很快。
效率上大概能提高多少?
宋乐:比如说数据上就可以减少比如 10 倍、100 倍,几个数量级的减少,然后周期迭代的话,也可以减少 10 倍的时间。
以平台形式合作
从零开始创建 xTrimo 过程中,遇到了哪些难点和挑战?又是如何解决的?
宋乐:模型架构创新,需要跨生物+AI 的专业知识和人才;面对太过于创新而没有现成人才的挑战,我们开展了不同背景/学科的人才培养/融合计划,以解决不同背景同学的交流/理解学习/形成合作的挑战。
举个例子,我们在靶点发现算法建设的过程中,算法任务就是在预测扰动后的细胞状态的变化,但这个任务可以直接利用的数据少,描述状态变化的信息是上万维度的基因信息,直接建模将会是一个难以完成的任务。但是通过生物和 AI 算法研发人员的共同碰撞,找到了思路。
一方面从 AI 算法同学的背景出发我们找到了利用大量无监督单细胞数据形成预训练模型,抓住细胞千变万化的基因表达的内在联系,让细胞扰动后状态的预测有了一个好的基础,同时从生物同学出发,将大量已有的生物通路数据详细归类和甄别,辅助 AI 建立基于细胞调控图谱的扰动传播模型,两方面结合让我们建立了 xTrimoCell 的模型,成为业界首创的免疫细胞扰动后功能变化预测模型,并用于靶点发现。正是应为多领域人才相互之间的激发,推动我们在具体的制药场景的技术的快速发展。
我记得颜宁教授回国的时候,大家也有讨论过结构生物学可能因为 AI 的介入面临天花板。我想问一下,这种大模型,对于传统的生物医药本身,它有怎样的革新,或者说它到底改变了哪些事物轨迹?
宋乐:我觉得很多医药研发环节都会被加速。
因为很多情况下,在传统的医药公司,他们在设计药物的过程中,大概也是有两类的思维方式,一种是纯生物的筛选手段,相当于我不去理解下面的物理化学性质,只是去养很多只实验鼠,然后做一个巨大的生物筛选库,尝试去找到可用的信息,首先可设计的蛋白空间很大,它有很多筛选不到,或者要么是培养这些小鼠的周期很长,所以挺难去获得一个医学的收获。
然后还有一波人,他会更加偏理化性质或者是三维结构的思考去设计药物,会非常依赖三维结构的存在,所以,以前只有通过试验的手段才能获得三维结构。
现在经过模型的预测,可以得到一定的准确度,有些比较准,有些没有那么准,特别是有一波很准的东西,没有必要去做试验,从某种意义上来说,也是节省了试验的开支,加速整个过程。
我会想象,后面的医药研发都会被加速,有些疾病、有些靶点加速很快,有些难的可能再过多一点时间才能够被加速。可以想象后面整个可能这些疾病对应的这些靶点的医药研发,都会变得很快,至少在前期的试验室筛选这个阶段可以变得很快,但是最终还是要经过相当于动物或者是临床的试验,可能慢的还是在哪里,要非常严谨的。
这个就是真正需要我们去一步一步观察的,不能省下来。
宋乐:对的,还是非常重要,整体的安全性,但是可以把前置的筛选过程加速,以及更多的考虑在前置设计或者是找到药物,考虑到后面可能会要关注的一些因素,比如说它的毒性、代谢这些各种各样的因素,是不是有副作用的因素,在模型里考虑到,你设计的东西在后面临床试验比较快速的一次过就通过了。
现在有很多医药研发,实际上都是因为临床阶段,它开始设计的时候没有考虑到,或者是没有预测到很多属性,到后面的流程就会受挫。
因为失败率太高了,所以整个药物研发造价很高,以及时间也拖的更长了。如果能够减少后面的失败率,以及前期的研发时间,后面的临床非常之严谨的试验来去验证你的效果,然后成功率更高,可以想象更加多的疾病会被治愈。
做大模型肯定是要与很多药企合作,我们现在跟哪些药企有合作?
宋乐:我们正以一个平台型的形式与外部的一些合作者进行合作,也不单单是药企,有各种各样的形式可以合作,包括「卓越计划」也是和一些大学和研究机构进行合作。具体的合作药企名单,我们很快会有一批集中发布,敬请期待。
生命科学大模型终将实现的价值
大模型的投入是非常之大的,想问一下这两年大概的资金是多少,我们什么时候准备启动下一轮的融资?
宋乐:投入确实很大,单单就计算这一块,训练大模型就得动用一千个 GPU 训练三个月,可能一年里面还要训练几次,训练几次就达几百万或者是千万级别,整个计算资源一年可能会花上亿的计算资源。
当前百图生科能够获得稳定的资金支持,随着更多研发管线进入不同阶段,或将在今明年寻求更多全球优质投资者的关注和支持。
与未来生命科学研究的发展趋势相结合,xTrimo 还有哪些方面可以进一步提升和完善?
宋乐:生命科学大模型已经取得了很大进展,但它天然具有持续迭代的特性,因此需要不断地去整合生命科学领域的各种数据、知识和技术。
以数据为例,因为生命体的高度复杂度,目前数据量很大,但仍然是有限的。随着生命科学领域观测手段和技术的发展,吸收更多的数据尤其是垂直类数据,将使我们能够更加精细精准地理解进化,理解生命。
这也就意味着,要实现这一目标,我们需要不断吸纳新的合作伙伴,特别是那些在体外模拟体系、超精度观测和特殊验证体系等方面具有丰富知识和技术的生命科学家,这些努力都将加速 xTrimo 为整个生命科学领域的赋能。
对于 xTrimo 在推动整个生命科学领域的发展上有何期望和愿景?
宋乐:对于 xTrimo 大模型,我们的长期愿景/目标,也是生命科学大模型终将实现的价值,就是解码、治愈所有的疾病、解决我们当下难以应对的全球公共卫生问题、食物能源短缺以及环境污染等人类可持续发展的问题。