
但你现在还用不上。
作者 | 桦林舞王
编辑 | 靖宇
OpenAI 的模型迭代速度,正在逼近让人来不及消化的临界点。
6 月 12 日,GPT-5.2 刚刚从 ChatGPT 退役,所有用户被静默迁移到 GPT-5.5。
6 月 22 日,Daybreak 网络安全计划大规模扩展,GPT-5.5-Cyber 全量版本上线。
6 月 24 日,和 Broadcom 联合发布了第一颗自研推理芯片 Jalapeño。然后就是 6 月 26 日——GPT-5.6 三件套正式亮相。
两周之内,退役旧模型、扩展安全平台、发布自研芯片、上线全新旗舰,四件事密集排列。这不是散点式的产品更新,而是一套完整的基础设施攻势。
三个名字,三层逻辑
GPT-5.6 不再是一个模型,而是三个。
Sol(旗舰)、Terra(平衡)、Luna(经济),名字来自太阳、地球和月亮。OpenAI 在公告里解释了这套命名规则的深意——数字标记代际,Sol/Terra/Luna 标记能力层级,每一层可以独立迭代。这意味着以后不再是「GPT-6 替掉 GPT-5」这么简单,而是三条产品线各走各的节奏。

GPT-5.6 三个模型在 Terminal-Bench 2.1 测试中名列前茅|图片来源:OpenAI
先看硬数据。
Sol 在 Terminal-Bench 2.1(测试命令行工作流中的规划、迭代和工具协调能力)上拿到 91.9%,超过了 Anthropic 的 Claude Mythos 5 的 88.0%,Google 的 Gemini 3.1 Pro Preview 只有 70.7%。在生物领域的 GeneBench v1 上,Sol 的得分也超过了 GPT-5.5(30% vs 22%),而且消耗的 Token 更少。
网络安全是 Sol 这次最值得说的方向。在 ExploitBench 上,Sol 和 Anthropic 的 Mythos Preview 基本打平,但只用了后者大约三分之一的输出 Token。换句话说,同样的安全分析能力,Sol 更便宜也更快。OpenAI 还在系统安全卡中披露,GPT-5.6 全系列三个模型都被内部评为「High」风险等级(网络安全和生化能力维度),但没有触及最高的「Critical」级别。
Sol 还带来了两个新的推理控制模式。Max Reasoning让模型在困难问题上花更多时间深度推理,类似于把思维链拉到极限。Ultra 模式则更激进——它引入了「子代理」机制,可以把一个复杂任务拆分给多个 Agent 并行处理,而不是一个模型一路问到底。这两个功能都会增加延迟和成本,换来的是准确率的提升,尤其在需要长时间规划的编码和安全研究场景。
Terra 是这一代性价比曲线最陡的一段。OpenAI 说它的性能接近 GPT-5.5,但价格直接减半。Luna 最轻,定位高频调用、低延迟场景——自动补全、邮件分类、简单摘要这类任务。值得一提的是,Luna 在多项测试中的表现接近 GPT-5.5 水平,这对一个定价最低的模型来说相当有竞争力。
新模型 API 定价如下(每百万 Token):
- Sol:输入 5 美元 / 输出 30 美元(和 GPT-5.5 相同)
- Terra:输入 2.5 美元 / 输出 15 美元(GPT-5.5 的一半)
- Luna:输入 1 美元 / 输出 6 美元(OpenAI 目前最低价)
做个横向对比就更清楚了。Anthropic 最新的旗舰模型输入 10 美元、输出 50 美元,Sol 的价格只有它的一半。智谱的 GLM-5.2(MIT 开源)输入 1.4 美元、输出 4.4 美元,和 Luna 处在同一价格带,但 Luna 是闭源模型,按理说应该有能力溢价。OpenAI 显然在用 Luna 守住低价市场,不让开源模型和中国厂商吃掉这块。
GPT-5.6 还更新了缓存策略。Prompt Caching 支持了显式缓存断点和 30 分钟最低缓存生命周期。缓存写入按 1.25 倍标准输入价计费,缓存读取继续享受 90% 折扣。对于大量重复上下文的企业场景,这能进一步压低实际使用成本。
另外,OpenAI 宣布 7 月将在 Cerebras 硬件上运行 Sol,目标速度 750 Token/秒。如果这个数字属实,意味着用旗舰模型也能获得接近实时的响应体验。
分层容易,选对很难
Sol/Terra/Luna 三层结构的逻辑清晰,但对企业来说真正难的是「选对层」。
如果 Terra 在大多数场景下够用,Sol 凭什么让人多花一倍的钱?答案可能不在单次调用成本上。一个更贵的模型如果能减少三次失败重试,或者替工程师省下两小时排查时间,综合成本可能反而更低。但这要求企业真正量化过自己的工作流,而不是凭感觉选模型。
Luna 的定位是防御性的。GLM-5.2 以六分之一的价格提供前沿级编码能力,DeepSeek V4 Pro 的输出价格低至 0.87 美元/百万 Token。OpenAI 不在低成本赛道上布子,这块市场就会完全属于别人。
Ultra 模式和子代理机制是真正面向未来的设计。当一个任务不再是一个模型一问一答,而是被拆分成多个并行子任务,模型本身的参数规模反而没那么重要了——Agent 架构的成熟度和任务编排能力才是关键。这也是为什么 OpenAI 在 Terminal-Bench 这类测试「规划-迭代-工具协调」的基准上投入了大量精力。
有分析师把 GPT-5.6 的发布意义总结为一句话:
「整体模型时代结束了。」
以前 CTO 们的做法是把所有任务都塞给最贵的那个模型,现在得重新想清楚——哪个任务配用哪层。这件事听起来简单,做起来需要大量的工程评估、成本建模和路由决策。
OpenAI 把选择权给了用户,但也把复杂度一起打包过去了。
不只是模型的战争
把 GPT-5.6 放在 OpenAI 六月的完整动作序列里看,画面会更完整。
6 月 22 日的 Daybreak 扩展是一个被低估的动作。
GPT-5.5-Cyber 在 CyberGym 上拿到 85.6% 的最高单模型得分,超过标准 GPT-5.5 的 81.8% 和 Mythos 5 的 83.8%。
Codex Security 插件已经能在 dnsmasq 这样的开源项目中独立发现已知 CVE。
「Patch the Planet」计划拉来了 Trail of Bits、HackerOne 等安全公司,以及 cURL、Go、Python 等超过 30 个开源项目。这不再是「AI 发现漏洞」的技术演示,而是从发现到验证、修复、披露的完整闭环。
6 月 24 日发布的 Jalapeño 推理芯片则是另一条线。9 个月从设计到流片,工程样片已经在跑 GPT-5.3-Codex-Spark,年底部署到微软合作的吉瓦级数据中心。
Broadcom CEO 宣称每 Token 推理成本比现有 Nvidia GPU 降低约 50%。这个数字还没有独立验证,但方向是对的——当你每天要处理数十亿次推理请求时,控制芯片层就是控制成本命脉。
模型、安全、芯片,三条线同时推进。OpenAI 正在从一家「做模型的公司」变成一家「控制 AI 全栈的公司」。
GPT-5.6 目前还只是预览。等正式开放之后,那 20 家先拿到权限的公司怎么用、用在哪、选了 Sol 还是 Terra,大概才是真正值得写的下一篇文章。
头图来源:OpenAI



