最新一期权威大模型榜单:豆包 1.5、商汤日日新 V6 并列国内第一

摘要

5 月 28 日, 权威大模型测评机构 SuperCLUE《中文大模型基准测评 2025 年 5 月报告》全新出炉!

5 月 28 日, 权威大模型测评机构 SuperCLUE《中文大模型基准测评 2025 年 5 月报告》全新出炉!

豆包 1.5·深度思考模型 (Doubao-1.5-thinking-pro) 和商汤日日新 V6 多模态模型 (SenseNova-V6 Reasoner) 共同摘得金牌, 超越 Gemini 2.5 Flash Preview, 在国内大模型第一梯队领跑。

位居第二梯队的大模型包括 DeepSeek-R1、NebulaCoder-V6、Hunyuan-T1 以及 DeepSeek-V3。

来自 SuperCLUE

报告指出, 国内外第一梯队大模型在中文领域的通用能力差距正在缩小。在国产大模型中,Doubao-1.5-thinking-pro-250415、SenseNova V6 Reasoner 表现最为亮眼。国内推理模型竞争格局初露端倪。

SuperCLUE 是行业权威的通用大模型的综合性测评基准。本次 2025 年 5 月报告聚焦通用能力测评, 涵盖数学推理、科学推理、代码生成、智能体 Agent、精确指令遵循、文本理解与创作六大任务, 总量为 1579 道多轮简答题。

来源:互联网

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。