InfoQ 发布 2025 推理模型评测报告:文心 X1 Turbo 领跑国内 总分第一

摘要

5 月 29 日,极客邦科技双数研究院 InfoQ 研究中心正式发布《2025 推理模型评测报告》

5 月 29 日,极客邦科技双数研究院 InfoQ 研究中心正式发布《2025 推理模型评测报告》,基于逻辑推理、数学推理、多步推理、语言推理、及幻觉控制五大维度,对 OpenAI O3、文心 X1 Turbo、DeepSeek-R1、Kimi k1.5、Doubao-1.5-thinking-pro、Qwen3-235B-A22B 等八款国内外主流推理模型展开深度评估。报告显示,文心 X1 Turbo 以总分第一的成绩领跑国内模型,并在幻觉控制、语言推理等核心维度展现显著优势,成为国内首个在五大评测维度中斩获最多单项冠军的推理模型。

InfoQ 研究中心指出,受「推理时计算拓展」与「可验证奖励强化学习」两大技术范式驱动,全球厂商已进入推理模型密集发布期,OpenAI o1、DeepSeek R1、 文心 X1 Turbo、Claude 3.7 Sonnet Reasoning 等十余款推理模型相继上线,争夺下一代大模型的「推理入场券」。

根据报告,文心 X1 Turbo 是本次评测中「单项冠军数量最多」的模型,在五大细分维度中表现亮眼:在幻觉控制方面,文心 X1 Turbo 以 80.56% 的得分位列第一,领先 DeepSeek-R1、Qwen3-235B-A22B 等模型,有效降低模型生成错误或误导性信息的风险;在语言推理方面,文心 X1 Turbo 以 70.31% 的得分位列第一,领先 Doubao-1.5-thinking-pro、DeepSeek-R1、Qwen3-235B-A22B 等模型;在数学推理方面,OpenAI O3 以 81.25% 的得分位列第一,文心 X1 Turbo 紧跟其后,位居国内第一。

幻觉控制 Top 5 模型得分情况

语言推理 Top 5 模型得分情况

报告认为,作为国产推理模型代表,文心 X1 Turbo 其技术突破不仅标志着国产模型在推理能力上的里程碑式进展,更为 AI 从「内容生成」向「可验证逻辑执行」的跃迁提供了关键支撑。

随着技术迭代与场景深化,推理模型把大模型从单纯的内容生成器升级为「可验证的逻辑执行器」。伴随着单场景推理深度、跨工具编排广度、在线自进化能力的同步跃升,更多新商业机会正被快速打开。

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。