作者 | 桦林舞王

编辑 | 靖宇

OpenAI 的模型迭代速度，正在逼近让人来不及消化的临界点。

6 月 12 日，GPT-5.2 刚刚从 ChatGPT 退役，所有用户被静默迁移到 GPT-5.5。

6 月 22 日，Daybreak 网络安全计划大规模扩展，GPT-5.5-Cyber 全量版本上线。

6 月 24 日，和 Broadcom 联合发布了第一颗自研推理芯片 Jalapeño。然后就是 6 月 26 日——GPT-5.6 三件套正式亮相。

两周之内，退役旧模型、扩展安全平台、发布自研芯片、上线全新旗舰，四件事密集排列。这不是散点式的产品更新，而是一套完整的基础设施攻势。

三个名字，三层逻辑

GPT-5.6 不再是一个模型，而是三个。

Sol（旗舰）、Terra（平衡）、Luna（经济），名字来自太阳、地球和月亮。OpenAI 在公告里解释了这套命名规则的深意——数字标记代际，Sol/Terra/Luna 标记能力层级，每一层可以独立迭代。这意味着以后不再是「GPT-6 替掉 GPT-5」这么简单，而是三条产品线各走各的节奏。

GPT-5.6 系列模型（Sol, Terra, Luna）在 Terminal-Bench 2.1 测试中的跑分对比图表，展示其超越 Anthropic Mythos 的性能优势

GPT-5.6 三个模型在 Terminal-Bench 2.1 测试中名列前茅｜图片来源：OpenAI

先看硬数据。

Sol 在 Terminal-Bench 2.1（测试命令行工作流中的规划、迭代和工具协调能力）上拿到 91.9%，超过了 Anthropic 的 Claude Mythos 5 的 88.0%，Google 的 Gemini 3.1 Pro Preview 只有 70.7%。在生物领域的 GeneBench v1 上，Sol 的得分也超过了 GPT-5.5（30% vs 22%），而且消耗的 Token 更少。

网络安全是 Sol 这次最值得说的方向。在 ExploitBench 上，Sol 和 Anthropic 的 Mythos Preview 基本打平，但只用了后者大约三分之一的输出 Token。换句话说，同样的安全分析能力，Sol 更便宜也更快。OpenAI 还在系统安全卡中披露，GPT-5.6 全系列三个模型都被内部评为「High」风险等级（网络安全和生化能力维度），但没有触及最高的「Critical」级别。

Sol 还带来了两个新的推理控制模式。Max Reasoning让模型在困难问题上花更多时间深度推理，类似于把思维链拉到极限。Ultra 模式则更激进——它引入了「子代理」机制，可以把一个复杂任务拆分给多个 Agent 并行处理，而不是一个模型一路问到底。这两个功能都会增加延迟和成本，换来的是准确率的提升，尤其在需要长时间规划的编码和安全研究场景。

Terra 是这一代性价比曲线最陡的一段。OpenAI 说它的性能接近 GPT-5.5，但价格直接减半。Luna 最轻，定位高频调用、低延迟场景——自动补全、邮件分类、简单摘要这类任务。值得一提的是，Luna 在多项测试中的表现接近 GPT-5.5 水平，这对一个定价最低的模型来说相当有竞争力。

新模型 API 定价如下（每百万 Token）：

Sol：输入 5 美元 / 输出 30 美元（和 GPT-5.5 相同）
Terra：输入 2.5 美元 / 输出 15 美元（GPT-5.5 的一半）
Luna：输入 1 美元 / 输出 6 美元（OpenAI 目前最低价）

做个横向对比就更清楚了。Anthropic 最新的旗舰模型输入 10 美元、输出 50 美元，Sol 的价格只有它的一半。智谱的 GLM-5.2（MIT 开源）输入 1.4 美元、输出 4.4 美元，和 Luna 处在同一价格带，但 Luna 是闭源模型，按理说应该有能力溢价。OpenAI 显然在用 Luna 守住低价市场，不让开源模型和中国厂商吃掉这块。

GPT-5.6 还更新了缓存策略。Prompt Caching 支持了显式缓存断点和 30 分钟最低缓存生命周期。缓存写入按 1.25 倍标准输入价计费，缓存读取继续享受 90% 折扣。对于大量重复上下文的企业场景，这能进一步压低实际使用成本。

另外，OpenAI 宣布 7 月将在 Cerebras 硬件上运行 Sol，目标速度 750 Token/秒。如果这个数字属实，意味着用旗舰模型也能获得接近实时的响应体验。

分层容易，选对很难

Sol/Terra/Luna 三层结构的逻辑清晰，但对企业来说真正难的是「选对层」。

如果 Terra 在大多数场景下够用，Sol 凭什么让人多花一倍的钱？答案可能不在单次调用成本上。一个更贵的模型如果能减少三次失败重试，或者替工程师省下两小时排查时间，综合成本可能反而更低。但这要求企业真正量化过自己的工作流，而不是凭感觉选模型。

Luna 的定位是防御性的。GLM-5.2 以六分之一的价格提供前沿级编码能力，DeepSeek V4 Pro 的输出价格低至 0.87 美元/百万 Token。OpenAI 不在低成本赛道上布子，这块市场就会完全属于别人。

Ultra 模式和子代理机制是真正面向未来的设计。当一个任务不再是一个模型一问一答，而是被拆分成多个并行子任务，模型本身的参数规模反而没那么重要了——Agent 架构的成熟度和任务编排能力才是关键。这也是为什么 OpenAI 在 Terminal-Bench 这类测试「规划-迭代-工具协调」的基准上投入了大量精力。

有分析师把 GPT-5.6 的发布意义总结为一句话：

「整体模型时代结束了。」

以前 CTO 们的做法是把所有任务都塞给最贵的那个模型，现在得重新想清楚——哪个任务配用哪层。这件事听起来简单，做起来需要大量的工程评估、成本建模和路由决策。

OpenAI 把选择权给了用户，但也把复杂度一起打包过去了。

不只是模型的战争

把 GPT-5.6 放在 OpenAI 六月的完整动作序列里看，画面会更完整。

6 月 22 日的 Daybreak 扩展是一个被低估的动作。

GPT-5.5-Cyber 在 CyberGym 上拿到 85.6% 的最高单模型得分，超过标准 GPT-5.5 的 81.8% 和 Mythos 5 的 83.8%。

Codex Security 插件已经能在 dnsmasq 这样的开源项目中独立发现已知 CVE。

「Patch the Planet」计划拉来了 Trail of Bits、HackerOne 等安全公司，以及 cURL、Go、Python 等超过 30 个开源项目。这不再是「AI 发现漏洞」的技术演示，而是从发现到验证、修复、披露的完整闭环。

6 月 24 日发布的 Jalapeño 推理芯片则是另一条线。9 个月从设计到流片，工程样片已经在跑 GPT-5.3-Codex-Spark，年底部署到微软合作的吉瓦级数据中心。

Broadcom CEO 宣称每 Token 推理成本比现有 Nvidia GPU 降低约 50%。这个数字还没有独立验证，但方向是对的——当你每天要处理数十亿次推理请求时，控制芯片层就是控制成本命脉。

模型、安全、芯片，三条线同时推进。OpenAI 正在从一家「做模型的公司」变成一家「控制 AI 全栈的公司」。

GPT-5.6 目前还只是预览。等正式开放之后，那 20 家先拿到权限的公司怎么用、用在哪、选了 Sol 还是 Terra，大概才是真正值得写的下一篇文章。

头图来源：OpenAI

GPT-5.6 来了，超越 Mythos，成本比 5.5 降一半

三个名字，三层逻辑

分层容易，选对很难

不只是模型的战争

最新文章