AI Agent 很火,但 Agent Infra 准备好了吗?

摘要

给 Agent 用的 Infra 基建,和人类的不一样。

Infra 软件的主要使用者,正从人类开发者变成 AI Agent。

a16 今年的年终预测中,也明确指出:Agent-native 的基础设施将成为未来的基本门槛。

但很明显,当下 Agent Infra 的基础设施并不完善,不管是代码的兼容性还是服务器的启动优化,甚至虚拟机的配置等,都还是为人类开发者的服务模式。AI Agent 对 Infra 的要求,与人类完全不一样。

这其中存在很多新的机会和可能性。

Agent Infra 的现状如何,还有哪些问题没有解决,未来更多的可能性会在哪些场景?就这些问题,我们与腾讯云 Agent Infra 团队 和 Dfiy 的技术人员聊了聊,希望能搞清楚一些事情。


超 17000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。

邀请从业者、开发人员和创业者,飞书扫码加群:

进群后,你有机会得到:

  • 最新、最值得关注的 AI 新品资讯;
  • 不定期赠送热门新品的邀请码、会员码;
  • 最精准的AI产品曝光渠道

 

01

Agent 的落地范式跟 App 完全不同

之所以 Infra 层会有很大的变化,核心在于,AI Agent 今天的开发和落地范式,与以往的 App 完全不同了。

核心的区别就是不确定性的存在。

过去人类写代码,是靠大量 if、else 的逻辑判断来实现功能,现在转向了 Agent 的概率性目标规划。以前写下一行代码,机器严格执行;现在则更像一个老师的角色——通过提示词、RAG 这些技术,给模型提供背景信息,再设定一些原则去调教它,让它自主处理任务。这是一种更高级、也更先进的控制方式。

传统软件工程里,bug 是对既定规则的违反,修 bug 就像修水管,哪里坏了补哪里就行;但在 Agent 工程里,失败往往是模型对开发者意图的误解,或者说是概率上的「漂移」。你没办法像修水管一样去修复一个 Agent,只能像教育孩子一样,去引导它、说服它、约束它。

一个 AI Agent 的效果,是由模型、范式、提示词、上下文、工具体系,还有工具调用的参数选择等七八个因素共同决定的。这次效果不好,到底是模型的问题?提示词的问题?还是工具的问题?根本说不清楚。这些因素环环相扣,相互影响的关系很难明确界定,这完全符合「复杂系统」的定义。

更关键的是,它还是一个不确定性的复杂系统。同一个问题,这一刻问和下一刻问,哪怕输入完全一样,输出也可能不同。而我们过去熟悉的微服务系统,哪怕再复杂,调用关系都是清晰的,哪里报错、谁的责任,一目了然。从这个角度来说,微服务系统其实是「简单系统」,而且是确定性系统——只要数据库和数据关系不变,同样的输入必然会得到同样的输出。

不只是工作流变了,交付物也完全不同了。以前交付的是确定的功能,能明确界定「行」或「不行」;现在交付的是一种概率性的能力,你很难去定义什么是绝对的「正确」。

这种差异,对工程师来说是巨大的挑战。绝大多数工程师从入职第一天起,工作就是在确定性系统里进一步提升确定性,判断标准只有「对」和「错」。但现在我们面对的是不确定性的复杂系统,工作方式必须彻底转变。

这种转变主要体现在两点:

  • 第一,从工程思维转向科学实验思维 。工程思维是预先设计好整个系统;而科学实验思维的核心,是建立一套评测体系,把复杂系统拆解成一个个子系统,屏蔽其他子系统的干扰,去单独评测每个子系统的影响。只有通过这种控制变量的方式,一步步摸索,才能驾驭 Agent 的复杂性。
  • 第二,从 Day One 思维转向 Day Two 思维 。Day One 思维是代码上线、提供服务后,再根据用户需求去优化;但在 Agent 领域,上线第一天只代表它能跑起来了,真正的效果优化才刚刚开始。

Agent 落地远不止靠几个巧妙的范式,而是需要用工程方法,以确定性去驾驭不确定性,不断优化工程基础,才能真正落地。也正因此,针对 Agent 的 Infra 层建设,是一件非常复杂的事。

而且,Agent Infra 与过去两年业界讨论的 AI Infra 也完全不同。

AI Infra 更关注的是模型的算力、优化和推理,如何以最快、最稳定的算力服务让模型输出内容。

而 Agent Infra 关注的是项目的最终结果输出,上层的逻辑、记忆和工具调用。如何编排、如何管理记忆、如何调用各种工具接口,如何更稳定在沙盒里运行的问题。

算力正变成水和电,Agent Infra 才能做出产品服务的差异化。

 

02

但 Agent Infra 的定义还没有完全明确

很明显,Agent 已经成为当下 AI 应用的主要落地方式,Agent Infra 的前景一片大好。但在腾讯云的专家看来, Agent Infra 的定义和边界,目前其实还没有完全定型。

先区分两个概念:一个是「本质复杂度」,一个是「偶然复杂度」。比如企业要完成一笔交易转账,这是必须解决的核心问题,属于本质复杂度;而转账过程中可能会涉及到重试机制、权限校验、容错处理、数据上报等等,这些是因为工具和方法选择带来的附加问题,就属于偶然复杂度。

整体上来说,Infra 层的核心作用,就是帮企业解决落地过程中的偶然复杂度。问题在于,Agent 落地的场景千差万别——医疗场景要解决数据隐私问题,代码场景要解决生成质量问题,不同场景的偶然复杂度完全不同,所以 Agent Infra 该解决哪些问题,没办法一概而论。

不同的团队,切入 Agent Infra 的角度不同。腾讯云的思路,是聚焦于所有场景下偶然复杂度的「最大公共子集」,也就是不管什么行业、什么场景,开发者都必须面对的共性问题:安全问题、执行环境问题、工具体系问题、记忆问题、可观测性问题。

这些共性问题里,工具和安全沙箱的需求尤为突出——毕竟 Agent 的自主运行能力,带来的安全风险和破坏性太大了。他们从「如何驾驭自主运行」这个点切入,推出了 Agent 沙箱服务。相当于给每个 Agent 配了一台专属「个人电脑」,但又能把它牢牢限制在预设的工作范围内。

Agent 沙箱的安全防护是全方位的:从虚拟化层面限制 Agent 的操作边界,网络层面审计对外访问权限——哪些接口能调、哪些不能调;还有凭证层面的管理,给沙箱分配唯一的权限凭证,就像工牌一样,既能验证身份,又能管控访问范围,确保 Agent 只能在指定「工位」上完成指定任务,不会去「别的楼层」,不能去做别的事情。

这也是当下的 Agent 构建过程中偶然复杂度里的最公共的问题,如何让用户更放心地让 Agent 去处理现实世界的一系列问题。

目前几个大的海外云厂商都有推出自己的 Agent Infra 产品,Google Cloud 推出了 Vertex AI Agent Builder,AWS 推出了 Amazon Bedrock AgentCore,Microsoft Azure 则在 8 月份推出 Agent Factory,腾讯云当前主打的是刚推出不久的 Agent Runtime 解决方案。各家切入的角度有所不同,但其底层逻辑是相通的,从运维出发,先资源后应用和开发,再到安全和智能化,由下至上,先在共性需求上形成坚固基础,然后再向差异性需求拓展。

但本质上,云厂商们现在提供的产品基本是从上个时代演进过来的,并不是用全新范式思考的。Agent 尚未像传统 app 那样大规模出现,大家现在并不知道完备的 Agent Infra 范式是什么样子。

换句话说,不是看不到范式,而是它本身还不存在。

 

03

今天的 Agent Infra,

主要在服务哪些场景?

LangChain 最近发布的 Agent 年度报告中显示,客户服务、研究与数据分析是目前 Agent 最火热的两大应用方向,用户日常工作中最常用到的 Agent 主要有 Coding、数据处理及深度研究。

这也基本决定了目前的 Agent Infra 主要服务的场景。

  • Vibe Coding:除了专业的 Coding 软件外,各类 chatbot 中的应用生成功能也提供了 Coding 的功能,并且都转向了云端模式。如 AI 编程、前端页面生成、云端 IDE 等。AI 生成的代码在 云端沙箱环境 中运行,与本地彻底隔离,既能避免入侵风险,又具备更强的 资源弹性与可扩展性。
  • 深度研究、数据处理:办公 Agent 可以通过代码生成的方式完成数据清洗、数据分析、图表制作、甚至 PPT 制作。所有代码均在云端沙箱中运行,与本地彻底隔离,既安全可信,又具备弹性算力。
  • GUI Agent:依托云端各类 Use Agent 的能力,让 Agent 能够在不同环境中模拟人机操作,Browser Use Agent、Computer Use Agent、Mobile Use Agent 等,在云沙箱的助力下,覆盖 Web、桌面和移动端场景,成为真正的 虚拟员工。
  • 强化学习场景:Agent 通过反复尝试、反馈和优化逐步掌握复杂界面操作。

开发者对于 Agent Infra 层的需求,聚焦在两点: 极致的使用体验,完善的生态兼容性,尽量降低开发成本。

具体来说,API 的统一兼容就很关键。如果每家厂商的 API 都不一样,用户接入时会非常痛苦。就像云计算早期的 S3 对象存储 API,各家高度统一,用户用起来就很方便。腾讯云的沙箱服务既有腾讯云标准的云 API 版本,也兼容了社区里像 E2B 这类主流方案,大大降低了用户的接入门槛。

而且在这种情况下,闭源的系统级别方案有很大的优势。因为极致的体验,往往需要多个环节环环相扣、深度优化才能实现。

举个例子,腾讯云的沙箱服务能做到 全球领先的启动速度——80 毫秒 。这个技术,即使是代码全部开源,用户也很难复刻。这需要从底层的计算、网络、存储层面做镜像加速、预热和分发;还要在操作系统层面优化 cgroup、网络设备命名空间的创建逻辑,破除并发竞争的锁机制;在虚拟化层面用快照技术,避免真实开机的耗时;在 OCI 层优化进程管理,在调度层实现多集群、跨地域的智能调度。

这一系列环环相扣的不同层次的技术相互组合,以及大量的技术运营,大量的工程师的维护,才能给用户提供这样的一个极致的体验。

腾讯内部的一些 Agent 产品,从传统方案切换到 Agent Runtime 沙箱后,成本直接节省了 90% 以上。

内部比较典型的场景有两类:

Agent 产品内的应用生成或者数据处理功能 :在产品内生成一段代码或者分析一份数据,点击「运行」按钮后,后端都会立刻新建一个沙箱,把代码或 Excel 表格放进去执行。

在腾讯云的实测中,全球绝大多数同类 Agent 产品,点击运行后都需要秒级等待;而 Agent Runtime 能做到端到端 200 毫秒,这个时间包含了沙箱启动、代码运行、数据通信的全流程。同时还能解决安全问题——比如不会出现代码请求读取系统文件,Agent 就真的把机器上系统文件返回给用户的风险。

第二类是背后的技术支撑场景 ,比如 Agent 强化学习,让 chatbot 产品搜索某个信息,它需要从海量资料里筛选出最匹配的内容。这个过程不只是从 RAG 数据库里调取片段,还需要通过强化学习提升理解和筛选的精准度。

在强化学习的训练阶段,Agent 需要让模型同时处理上万个任务,相当于让一万个 Agent「刷题」,再通过奖励机制判断对错,完成一轮训练。这个过程中,「刷题」生成结果的时间占了整个训练时长的 60% 以上。这个时间越短,模型的迭代效率就会大幅提升。

为什么我们会感觉到很多 Agent 产品的能力在不断变强,背后就是这类底层技术在支撑。

 

04

给 Agent 做基建,

创业机会在哪里?

在 Agent Infra 范式还没有明确标准的时候,给 Agent 做基建,并不只是大厂的赛道,谁跑得快,谁能更快更好支持 Agent 的需求特性,谁就有可能更快拿下市场。

写代码、试想法、做原型,这些过去必须由专业工程师完成的事情,现在可以被 Agent 以极低的边际成本实现。AI Agent 第一次把「计算」这件事,真正意义上地民主化了。很多以前算不过账的事情,不太经济的商业模式,突然变得合理了。

比如明星 Agent 产品 Manus 背后就使用了开源数据库 TiDB Cloud,因为可以更好实现「看起来像独占,实际上是虚拟化」的设计,在实现极致资源复用的同时,又能让 Agent 在交互层面随意折腾:可以建表、删表、跑实验、写垃圾 SQL,而不会影响别人,也不用担心副作用。

在行业内人士看来,哪些方向会是 Agent Infra 未来的新重点?

Dify 认为 可调试性 、 记忆管理 和 低延迟性能是下一阶段的重点。

首先是可调试性,要做可视化的推理链调试,让开发者能一眼看明白 Agent 到底是在哪一步理解错了,精准定位问题。

然后是记忆管理。不是简单生硬的向量搜索,而是要实现语义化的情景记忆。因为 Agent 对记忆的理解,短板不在于存储了多少历史信息,而在于缺乏对时间维度的建模能力。当前 Agent 的时间感知能力其实很薄弱:prompt 的时间是一次性的,会话级别的时间关联很弱,长期记忆更是处于不可控的状态。但现实中的任务往往存在延迟决策、状态衰减的特点——不同时间节点的信息权重不同,未来的不确定性也会影响当下的行动。

对 Agent 记忆的管理,不能再停留在「常量」的思维定式里,而是要把它看作一种「变量」。

同时,基础性能层面的低延迟要求也得跟上。现在的流式输出已经满足不了需求,需要达到语音实时对话的响应速度,才能支撑更自然的交互场景。

在腾讯云的专家看来,未来应该关注的核心方向,是 从保障 Agent 安全可靠运行,升级到支撑 Agent 实现智能持续进化。

在他们看来,Agent Infra 和 AI Infra 并不是割裂的,而是一种交叉关系。先把 Agent 稳定地部署到生产环境中,让它跑起来之后,就会在实际业务里发现它的能力短板,同时产生大量的业务数据。腾讯云要做的,就是把这些数据充分利用起来,反过来对 Agent 本身,以及它背后的基础模型进行迭代优化,最终形成一个智能进化的闭环。

但就目前来看,现有的 Infra 体系,更多还是聚焦于服务基础大模型本身的能力与智力进化,并没有搭建起完善的链路,去支撑那些已经在业务中落地的 Agent——也就是没能利用 Agent 产生的真实行为数据、能力短板数据,来构建专属的 Agent 进化循环。

所以,下一步 Agent Infra 的核心突破点,一定是完成从「 服务 Agent 的构建与运行 」,到「 服务 Agent 的智能进化 」的跨越。

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。