
来自中国 AI 的震撼。
近日,一篇由中国团队领衔全球 24 所 top 高校机构发布,用于评测 LLMs for Science 能力高低的论文,在外网炸了!

12 月 19 日晚,Keras (最高效易用的深度学习框架之一)缔造者 François Chollet 转发论文链接,并喊出:「我们迫切需要新思路来推动人工智能走向科学创新。」
AI 领域从业者 Alex Prompter 分享论文核心摘要后,NBA 独行侠队老板 Mark Cuban 跟帖转发,5600 万粉丝的商业雷达全开,硅谷投资人、欧洲家族办公室、体育媒体同时涌进评论区。

仅一夜,累计阅读量逼近 200 万。
同一时间窗里,OpenAI 也发布了对于 AI 在科学发现领域能力评测的论文《FrontierScience: Evaluating Al's Ability to Perform Scientific Research Tasks》概述,喊出:现有评测标准在AI for Science领域失灵。

同 OpenAI 撞车,海外讨论出圈,究竟是什么样的一份工作成果,是什么样的中国企业,搅动了全球 AI 舆论场。
AI距离可以助力科学发现还有多远?
在人工智能估值泡沫隐现、能耗与产出比饱受质疑的当下,一面是资本的狂欢,另一面却是 AI 能力困于「文生图」等表层应用的尴尬。一面是各类大语言模型频繁霸榜 GPQA、MMMU 等题库式 benchmark,另一面却是无法准确解析简单核磁图谱的束手无策。
不禁要问:也许要耗尽人类智慧与能源所创造的 AI,难道仅是为了这些?
现在的模型距离科学发现还有多远?究竟什么样的 AI 模型可以胜任,拓宽人类的生存边界?
这些关乎我们最初拥抱 AI 初衷的问题,在中国发布「人工智能+」,美国推出」创世纪计划」的 2025 年年末,讨论愈发浓烈。
2025 年 12 月 18 日,由中国 AI for Science 领域的初创企业「深度原理 Deep Principle」领衔全球如哈佛、MIT 等 24 所科研院校共同发布的《Evaluating LLMs in Scientific Discovery》论文,正式回答该时代之问。
论文推出了LLM for Science首套评测体系SDE(Scientific Discovery Evaluation),从科学问题到研究项目,对 gpt-5、claude-sonnet-4.5、grok-4、deepseek-R1 等全球主流大语言模型在生物、化学、材料、物理领域的科学研究与发现能力完成摸底。

同以往评测体系不同的是,SDE 对模型能力的考量,从简单的问答式,引向了具体的「假设->实验->分析」实验场景。
研究发现,当前顶尖的大语言模型在科学发现核心场景中普遍存在能力瓶颈,即便是针对性强化推理能力的旗舰模型(如 gpt-5-pro),在这些高难度科学问题上的正确率也仅勉强突破 10%,且需要付出 12 倍于普通模型的计算成本,性价比极低。
更值得警惕的是,模型规模与推理能力的提升已呈现明显的 「边际效益递减」。
gpt-5 相较于前一代模型,参数规模和推理算力显著增加,但在 SDE 基准的四大科学领域中,平均准确率仅提升 3%-5%,部分场景(如 NMR 结构解析)甚至出现性能下滑。
当前大语言模型在推动科学发现方面的表现,还不如一个普通的本科生。
「深度原理Deep Principle」是谁?
「深度原理 Deep Principle」创始人,MIT 物理化学博士贾皓钧和 MIT 化学博士段辰儒,虽 95 后,但已是全球 AI for Science 领域 Top KOL。
其中,「深度原理 Deep Principle」创始人兼 CTO 段辰儒博士,是《Evaluating LLMs in Scientific Discovery》论文通讯作者。
早在 2021 年,在 MIT 求学期间,他就已在图灵奖得主 Yoshua Bengio 的支持下,发起了 AI for Science 社区的建立,并在 NeurIPS 上举办 AI for Science workshop。
换句话来讲,「深度原理 Deep Principle」从创立之初,就带着全球AI for Science头部研究者们的势能与期待。
自创办一年多以来,「深度原理 Deep Principle」深入全球材料研发中的第一线,将生成式人工智能同量子化学结合起来,立志推动材料发现等领域进入新纪元。
在商业真金白银的检验中,AI 能否真正解决新产品研发问题,满足客户期待,是「深度原理 Deep Principle」日复一日必须面对的拷问。
在客户与自己的实验室里,大量来自第一线的真实工业研发场景数据和模型应用经验。在「深度原理Deep Principle」的数据库中汇聚。
学术圈的深耕与在 AI for Science 商业化第一线的积累,让「深度原理 Deep Principle」在提出要构建一把新尺子评测 LLMs for Science 能力时,一呼百应,摇来了 23 家全球 Top 科学发现机构 50 余位科学家,成立了制定 SDE 的梦之队。
这其中,不乏活跃在 LLM 领域的大牛学者们,比如:
•孙欢(Huan Sun),MMMU 发起人,俄亥俄州立教授
•杜沅岂(Yuanqi Du),康奈尔博士,AI4Science 社区「运营大管家」
•王梦迪,普林斯顿最年轻教授,AI+Bio Safety 先驱者
•Philippe Schwaller,IBM RXN 之父,EPFL 教授
而「深度原理 Deep Principle」积累的科学发现场景,成为了后来 SDE 评测体系的前身。
2025 年 12 月 18 日,在经历近 9 个月的跨高校跨学科跨时区的协作后,《Evaluating LLMs in Scientific Discovery》论文发布,通讯单位赫然写着:深度原理,杭州,中国。
自此,来自中国的创业团队,和大洋彼岸的 OpenAI,同时站在了向 AI for Science,这一人类通往终极 AGI 顶峰攀登的两侧。

但与之不同的,是「深度原理 Deep Principle」的发现,汇聚着全球顶级科学发现机构的集体智慧。
或许千百年后,当人类回望 AGI 时代,在 21 世纪的四分之一结束的当口,是中国科创团队,引领全球 AI 从业者的目光,把 LLMs 等人工智能的发展,从「文生图」的表观需求,推向了对何时助力科学发现的严肃讨论。把全球对于 LLMs 在各类问答式榜单上的内卷,引向了真正科学发现场景的星辰大海。
正如「深度原理 Deep Principle」段辰儒博士所言:「目前 LLM 的发展路径并不能「顺便攻克」科学发现。相反,科学发现很可能是通往 AGI 的最关键战役。」



