GPT-5.6 来了,超越 Mythos,成本比 5.5 降一半

摘要

但你现在还用不上。

作者 | 桦林舞王

编辑 | 靖宇

 

OpenAI 的模型迭代速度,正在逼近让人来不及消化的临界点。

6 月 12 日,GPT-5.2 刚刚从 ChatGPT 退役,所有用户被静默迁移到 GPT-5.5。

6 月 22 日,Daybreak 网络安全计划大规模扩展,GPT-5.5-Cyber 全量版本上线。

6 月 24 日,和 Broadcom 联合发布了第一颗自研推理芯片 Jalapeño。然后就是 6 月 26 日——GPT-5.6 三件套正式亮相。

两周之内,退役旧模型、扩展安全平台、发布自研芯片、上线全新旗舰,四件事密集排列。这不是散点式的产品更新,而是一套完整的基础设施攻势。

三个名字,三层逻辑

GPT-5.6 不再是一个模型,而是三个。

Sol(旗舰)Terra(平衡)Luna(经济),名字来自太阳、地球和月亮。OpenAI 在公告里解释了这套命名规则的深意——数字标记代际,Sol/Terra/Luna 标记能力层级,每一层可以独立迭代。这意味着以后不再是「GPT-6 替掉 GPT-5」这么简单,而是三条产品线各走各的节奏。

GPT-5.6 系列模型(Sol, Terra, Luna)在 Terminal-Bench 2.1 测试中的跑分对比图表,展示其超越 Anthropic Mythos 的性能优势

GPT-5.6 三个模型在 Terminal-Bench 2.1 测试中名列前茅|图片来源:OpenAI

先看硬数据。

Sol 在 Terminal-Bench 2.1(测试命令行工作流中的规划、迭代和工具协调能力)上拿到 91.9%,超过了 Anthropic 的 Claude Mythos 5 的 88.0%,Google 的 Gemini 3.1 Pro Preview 只有 70.7%。在生物领域的 GeneBench v1 上,Sol 的得分也超过了 GPT-5.5(30% vs 22%),而且消耗的 Token 更少。

网络安全是 Sol 这次最值得说的方向。在 ExploitBench 上,Sol 和 Anthropic 的 Mythos Preview 基本打平,但只用了后者大约三分之一的输出 Token。换句话说,同样的安全分析能力,Sol 更便宜也更快。OpenAI 还在系统安全卡中披露,GPT-5.6 全系列三个模型都被内部评为「High」风险等级(网络安全和生化能力维度),但没有触及最高的「Critical」级别。

Sol 还带来了两个新的推理控制模式。Max Reasoning让模型在困难问题上花更多时间深度推理,类似于把思维链拉到极限。Ultra 模式则更激进——它引入了「子代理」机制,可以把一个复杂任务拆分给多个 Agent 并行处理,而不是一个模型一路问到底。这两个功能都会增加延迟和成本,换来的是准确率的提升,尤其在需要长时间规划的编码和安全研究场景。

Terra 是这一代性价比曲线最陡的一段。OpenAI 说它的性能接近 GPT-5.5,但价格直接减半。Luna 最轻,定位高频调用、低延迟场景——自动补全、邮件分类、简单摘要这类任务。值得一提的是,Luna 在多项测试中的表现接近 GPT-5.5 水平,这对一个定价最低的模型来说相当有竞争力。

新模型 API 定价如下(每百万 Token):

  • Sol:输入 5 美元 / 输出 30 美元(和 GPT-5.5 相同)
  • Terra:输入 2.5 美元 / 输出 15 美元(GPT-5.5 的一半)
  • Luna:输入 1 美元 / 输出 6 美元(OpenAI 目前最低价)

做个横向对比就更清楚了。Anthropic 最新的旗舰模型输入 10 美元、输出 50 美元,Sol 的价格只有它的一半。智谱的 GLM-5.2(MIT 开源)输入 1.4 美元、输出 4.4 美元,和 Luna 处在同一价格带,但 Luna 是闭源模型,按理说应该有能力溢价。OpenAI 显然在用 Luna 守住低价市场,不让开源模型和中国厂商吃掉这块。

GPT-5.6 还更新了缓存策略。Prompt Caching 支持了显式缓存断点和 30 分钟最低缓存生命周期。缓存写入按 1.25 倍标准输入价计费,缓存读取继续享受 90% 折扣。对于大量重复上下文的企业场景,这能进一步压低实际使用成本。

另外,OpenAI 宣布 7 月将在 Cerebras 硬件上运行 Sol,目标速度 750 Token/秒。如果这个数字属实,意味着用旗舰模型也能获得接近实时的响应体验。

分层容易,选对很难

Sol/Terra/Luna 三层结构的逻辑清晰,但对企业来说真正难的是「选对层」。

如果 Terra 在大多数场景下够用,Sol 凭什么让人多花一倍的钱?答案可能不在单次调用成本上。一个更贵的模型如果能减少三次失败重试,或者替工程师省下两小时排查时间,综合成本可能反而更低。但这要求企业真正量化过自己的工作流,而不是凭感觉选模型。

Luna 的定位是防御性的。GLM-5.2 以六分之一的价格提供前沿级编码能力,DeepSeek V4 Pro 的输出价格低至 0.87 美元/百万 Token。OpenAI 不在低成本赛道上布子,这块市场就会完全属于别人。

Ultra 模式和子代理机制是真正面向未来的设计。当一个任务不再是一个模型一问一答,而是被拆分成多个并行子任务,模型本身的参数规模反而没那么重要了——Agent 架构的成熟度和任务编排能力才是关键。这也是为什么 OpenAI 在 Terminal-Bench 这类测试「规划-迭代-工具协调」的基准上投入了大量精力。

有分析师把 GPT-5.6 的发布意义总结为一句话:

整体模型时代结束了。」

以前 CTO 们的做法是把所有任务都塞给最贵的那个模型,现在得重新想清楚——哪个任务配用哪层。这件事听起来简单,做起来需要大量的工程评估、成本建模和路由决策。

OpenAI 把选择权给了用户,但也把复杂度一起打包过去了。

不只是模型的战争

把 GPT-5.6 放在 OpenAI 六月的完整动作序列里看,画面会更完整。

6 月 22 日的 Daybreak 扩展是一个被低估的动作。

GPT-5.5-Cyber 在 CyberGym 上拿到 85.6% 的最高单模型得分,超过标准 GPT-5.5 的 81.8% 和 Mythos 5 的 83.8%。

Codex Security 插件已经能在 dnsmasq 这样的开源项目中独立发现已知 CVE。

「Patch the Planet」计划拉来了 Trail of Bits、HackerOne 等安全公司,以及 cURL、Go、Python 等超过 30 个开源项目。这不再是「AI 发现漏洞」的技术演示,而是从发现到验证、修复、披露的完整闭环。

6 月 24 日发布的 Jalapeño 推理芯片则是另一条线。9 个月从设计到流片,工程样片已经在跑 GPT-5.3-Codex-Spark,年底部署到微软合作的吉瓦级数据中心。

Broadcom CEO 宣称每 Token 推理成本比现有 Nvidia GPU 降低约 50%。这个数字还没有独立验证,但方向是对的——当你每天要处理数十亿次推理请求时,控制芯片层就是控制成本命脉。

模型、安全、芯片,三条线同时推进。OpenAI 正在从一家「做模型的公司」变成一家「控制 AI 全栈的公司」

GPT-5.6 目前还只是预览。等正式开放之后,那 20 家先拿到权限的公司怎么用、用在哪、选了 Sol 还是 Terra,大概才是真正值得写的下一篇文章。

 

头图来源:OpenAI

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。