Agent 大战,谁也等不起。
作者| 桦林舞王
编辑| 靖宇
2025 年底,一个奥地利开发者 Peter Steinberger 用一个小时写了个 Agent 工具,最初叫 Clawdbot,名字蹭了 Claude 的边。Anthropic 发律师函威胁法律行动,Steinberger 被迫改名,先改成 Moltbot,后来又改成 OpenClaw。
这本来是一件小事。
但 OpenClaw 随后爆了。GitHub 上狂飙到 17 万星,单周访问量破 200 万,成了有史以来增长最快的开源 Agent 项目之一。更关键的是,它默认推荐用 Claude 模型跑任务——某种程度上,它是 Anthropic 最大的免费流量入口之一。
然后 Anthropic 做了一件蠢事:开始封禁那些把 Claude API 接入 OpenClaw 的用户账号。
社区炸了。

Vercept 的产品让 AI 可以让 AI 控制电脑|图片来源:Vercept
「用自己花钱买的 API 做自动化,被封号」,这个操作让 AI 圈对 Anthropic 的舆论在一夜之间翻转。Steinberger 本人也彻底凉了对 Anthropic 的心。
2026 年 2 月 15 日,Sam Altman 宣布:Peter Steinberger 加入 OpenAI,负责下一代个人 Agent。
11 天后,Anthropic 宣布收购 Vercept 。
媒体的第一反应大多是:「又一家创业公司被大厂收购了。」
但这两件事放在一起看,说的是同一件事: AI 的战场正在发生一次非常具体的迁移——从「谁的模型更聪明」,到「谁能让 AI 真正控制一台电脑」。
而在这场迁移里,Anthropic 目前处于被动追赶的位置,部分原因是它自己造成的。
01
屏幕,真正的「最后一公里」
过去几年,AI 的能力突破大多发生在对话框里——你打字,它回答,精准、流畅、越来越快。但有一件事始终没变: 你依然得亲自打开软件、点击按钮、复制粘贴,然后再回来问 AI 下一步怎么做。
这就是 Agent 要解决的问题。
Agent 不是让 AI 更聪明地回答你,而是让 AI 直接替你干活:帮你打开 Excel、填好表格、切换到邮件客户端、把数据发出去,然后关掉窗口。整个过程,你只需要说一句话。
问题在于,要做到这一步, AI 必须先「看懂」你的屏幕 ——识别出每一个按钮、输入框、菜单,然后像人一样去点它。
这件事听起来简单,实际上极难。
一个有意思的现象是,在 AI 写代码、做分析、生成报告这些领域,各家的差距已经越来越小。但在「看屏幕、控电脑」这件事上,差距依然是代差级别的。
OpenAI 自己的 Operator,在 OSWorld(模拟真实电脑操作任务的基准测试)上得分是 38.1%。 Anthropic 的 Computer Use,只有 22%。而人类平均水平是 72.4% ——对,AI 做这件事,目前还远不如普通人顺手。
02
Vercept 为什么值得?
这就是 Vercept 被盯上的原因。
Vercept 的创始团队来自 Allen 人工智能研究所(Ai2),几个人在机器人感知、计算机视觉、强化学习领域都有深厚积累。
Vercept 团队做的 Vy,走的是一条和 OpenAI 完全不同的技术路线。
Operator 的逻辑是「读代码」 :通过解析网页底层 DOM 结构(文档对象模型),理解界面有哪些元素可以交互。这种方式速度快、稳定性好,但有一个硬伤—— 它只对有结构的 web 界面有效 。碰到本地软件、老系统、没有 API 的企业应用,它就完全没辙。
Vy 的逻辑是「看像素」 :不断截图,用视觉模型理解屏幕上的所有内容,再模拟鼠标键盘操作。覆盖范围是任何有屏幕的软件——不管是 Excel、本地 ERP,还是一个 20 年前开发的企业内网系统。
Vercept 介绍视频|视频来源:Vercept
Vercept 公布过一组数据:在 UI 元素识别基准测试 ScreenSpot v1 上,他们自研的 VyUI 模型准确率是 92%,OpenAI 同类模型是 18.3%。ScreenSpot v2 上是 94.7% 对 87.9%。
这个差距不是「我们优化得更好」,而是 底层技术路线带来的系统性优势 。
正是这个东西,补了 Anthropic 的短板。
Claude 的 Computer Use 能用,但一直不够惊艳。吸收 Vercept 的模型和团队,是 Anthropic 在「看屏幕」这件事上最快的提速方式。
03
OpenAI 在抢的,
是另一个入口
OpenAI 合并的 OpenClaw 是另一回事,但同样关键。
Peter Steinberger 做的 OpenClaw,不是桌面 Agent,而是把 AI 操控能力接入 WhatsApp、Telegram 这类消息平台——你在手机上发一条消息,它帮你在电脑上完成一个任务。
这条路解决的不是「AI 怎么看屏幕」,而是「用户从哪里发指令」 。
这个细节很重要。大多数人不会专门打开一个 Agent 界面来操作电脑,但每天都在用消息 App。 把指令入口放进消息 App,是让 Agent 真正融入日常使用习惯的关键一步。
OpenAI 收人而不是收公司,抢的就是这个方向的工程能力和产品直觉。
所以这两笔「收购」,针对的是 Agent 版图的不同层次: Anthropic 在补「屏幕感知」的技术短板,OpenAI 在布局「指令入口」的场景卡位 。
一个是基础设施,一个是用户习惯,缺哪个都不行。
更大的背景是,这场战争等不起。
Google、Microsoft 早就在布局,UiPath 这类 RPA(机器人流程自动化)公司的股价在 Anthropic 收购 Vercept 的消息发出后下跌了 3.6%——市场已经嗅到了威胁。
Agent 时代的竞争,本质上是一场基础设施的抢占。谁先把「AI 控制电脑」这件事做到足够好用,谁就在未来几年的企业和个人市场里握有真正的筹码。
Vercept 联合创始人兼早期投资者 Oren Etzioni 说了一句挺直白的话:「 我们基本上还是认输了 。」
但认输的原因,不是技术不好——他们的技术在某些维度上领先全场。认输的原因, 是这场战争烧的钱和资源,不是一家 20 人的初创公司能撑起来的 。
这大概也是 AI Agent 这个赛道最无情的地方:
好技术不够,还得有足够大的容器来装它。



