美团发布高效推理模型 LongCat-Flash-Thinking 聚焦高复杂度任务

摘要

9 月 22 日,美团高效推理模型 LongCat-Flash-Thinking 正式发布。

9 月 22 日,美团高效推理模型 LongCat-Flash-Thinking 正式发布。新模型除保持龙猫模型一贯「快」的特点同时,在逻辑、数学、代码、智能体等多个领域的推理任务中,也达到了全球开源模型的最先进水平(SOTA),部分任务性能接近闭源模型 GPT5-Thinking。

同时,LongCat-Flash-Thinking 增强了智能体自主调用工具的能力,并扩展了形式化定理证明能力,成为国内首个同时具备「深度思考+工具调用」与「非形式化+形式化」推理能力相结合的大语言模型。该团队还表示,尤其在高复杂度的任务(如数学、代码、智能体任务)处理上,新模型具备显著优势。

目前,LongCat-Flash-Thinking 已在 HuggingFace、Github 全面开源,并在官网可体验。

新模型又快又省 AIME25 使用工具 Token 消耗较其他模型省 64.5%

据了解,新模型主要通过创新架构等方式实现了高效推理与稳定训练的结果。具体来看:

为了解决强化学习领域混合训练的稳定性问题,美团 LongCat 团队设计了一种领域并行方案,将 STEM、代码和智能体任务的优化过程解耦。这一方法采用了多领域并行训练再融合的先进策略,实现模型能力的均衡提升,综合性能达到帕累托最优(Pareto-optimal)。

图 1:LongCat-Flash-Thinking 的训练流程(资料图)

新模型训练的基石是异步弹性共卡系统(Dynamic Orchestration for Asynchronous Rollout)。该系统通过弹性共卡调度(Elastic Colocation)与多版本异步流水线(Multi-Version Asynchronous Pipeline)设计,在实现相较于同步 RL 训练框架三倍提速的同时,确保了每条样本的策略一致性。同时,系统进一步实现了高效的 KV 缓存复用,能够支撑万卡规模集群的稳定运行。值得一提的是,在大规模异步强化学习(RL)训练阶段,FLOPs(Floating Point Operations)的投入约为预训练阶段的 20%,为模型性能提升提供了坚实的算力保障。

此外,美团 LongCat 团队设计了全新的「双路径推理框架」以提升模型的智能体能力。

该框架能够自主筛选最优查询样本,并通过自动化流程将智能体推理与工具使用相结合,使模型能够智能识别并调用外部工具(如代码执行器、API 等),从而高效解决复杂任务。基于 AIME25 实测数据,LongCat-Flash-Thinking 在该框架下展现出更高效的智能体工具调用(Agentic Tool Use)能力,在确保 90% 准确率的前提下,相较于不使用工具调用节省了 64.5% 的 Tokens(从 19653 到 6965),显著优化了推理过程的资源利用率。

为了克服当前开源通用大型语言模型在形式化证明任务中的不足,团队还针对形式化推理设计了一套全新的基于专家迭代框架的数据合成方法。该流程利用集成了 Lean4 服务器的专家迭代框架,生成经过严格验证的证明过程,从而系统性提升模型的形式化推理能力。这一创新方法系统性地增强了模型的形式化推理能力,提高了其在学术和工程应用中的可靠性。

专注高复杂度任务「快」模型刷新多项权威评测纪录

值得关注的是,LongCat-Flash-Chat 于本月 1 日开源,一经发布就因「快」的体验引发了市场广泛关注和讨论,不少业内人士称其为「最快的大参数模型」。

LongCat-Flash-Thinking 继承了「快」的特点,并在逻辑、数学、代码、智能体等领域的多项权威评测中刷新纪录,展现出「理科学霸」的新特点:

图 2:LongCat-Flash-Thinking 在推理基准测试上的平均性能比较(资料图)

通用推理能力:模型在需要结构化逻辑的任务中表现突出,ARC-AGI 基准测试中以 50.3 分超过 OpenAI o3、Gemini-2.5 Pro 等闭源模型,表现出优异的通用推理能力。

数学能力:在数学推理方面,也已跻身当前顶尖模型行列,并且在更具挑战性的基准测试中优势更加明显——在 HMMT 和 AIME 相关基准上取得突破性成绩,超越 OpenAI o3,这也证明了新模型解决复杂、多步骤问题的水平。

代码能力:在编程领域,LongCat-Flash-Thinking 展现出开源模型最先进的性能(SOTA)与综合实力。在 LiveCodeBench 上以 79.4 分显著超越其他参与评估的开源模型,并与闭源模型 GPT-5 表现相当,证明其解决高难度编程竞赛问题的优秀能力。在 OJBench 基准测试中也以 40.7 的得分保持竞争力,接近 Gemini-2.5 Pro 的水平。

智能体能力:LongCat-Flash-Thinking 在复杂的、工具增强型推理(tool-augmented reasoning)方面表现同样突出,并在智能体工具调用(agentic tool using)上有不错表现。其在 τ2-Bench-Airline 上以 67.5 分 刷新开源 SOTA 成绩,并在包括 SWE-Bench、BFCL V3 和 VitaBench 等基准测试中排名居前。

ATP 形式推理能力:LongCat-Flash-Thinking 在 MiniF2F-test 基准中的 pass@1 获得 67.6 的高分,领先所有其他参与评估的模型,在 pass@8 和 pass@32 中同样保持了领先优势。新模型在生成结构化证明和形式化数学推理方面具有优势。

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。