
如果你也在景点或展览中这样向豆包提问过,会发现豆包的讲解能力已经接近普通真人讲解员的水准。
站在大同善化寺的大雄宝殿中,我打开与豆包的视频通话,将镜头对准殿左右的金代彩塑,问道:「给我讲讲这些金代彩塑,哪几尊塑像最值得细细端详?」豆包会像真人讲解一样,先「看到和认出」彩塑,再「听懂」问题,然后「思考」如何回答,最后说出答案。
如果你也在景点或展览中这样向豆包提问过,会发现豆包的讲解能力已经接近普通真人讲解员的水准。留心观察,你会发现越来越多像豆包一样能看能听、能想能说的 Agent 正出现在不同的生活和工作场景中。在它们身上,音视频不再只是被人单向消费的内容,而是支持其面向真实世界进行输入与输出的重要能力。
在人与 Agent 协同共存的趋势下,视频云的任务不再只是保障内容流转,还要支撑人与 Agent 之间的意图交互。
过去,音视频是被消费的内容,视频云的主要任务是让音视频以更清晰、更稳定、更低延迟、更低成本的方式服务用户,为人带来更好的观看和互动体验。现在,Agent 成为了视频云的「超级用户」,需要依靠视频云去感知世界、理解世界、执行任务、交付结果,只做好采集、传输、存储、转码、分发和播放已经远远不够了。
视频云需要具备更多智能。火山引擎视频与边缘负责人王悦在 2026 火山引擎 FORCE 原动力大会智能视频云论坛上指出,Agent 时代的视频云既是人与 AI 协同的交互底座,也是 Agent 在多模态场景下进行感知、处理、表达与执行的重要能力层,更是智能应用连接真实世界的关键基础设施之一。
这意味着,视频云需要面向 Agent 时代完成一次自我重构:在继续服务好人的同时,也要满足好 Agent 提出的新需求。
一、从 VCloud 到 Agentic VCloud
在过去相当长的一段时间内,音视频都是人们获取信息的媒介,主要服务于传播场景。从广播、电视到后来的长视频、短视频、直播、播客,承载音视频的产品形态在随着技术发生变化,但服务的对象始终是人,服务的价值始终是满足人的感官体验和内容获取需求。
随之诞生的视频云,实际上是在解决如何兼顾极致的体验和成本的问题。服务于这个目标,视频云形成了比较稳定的发展逻辑:更高画质、更低延迟、更强并发、更优成本。这也是火山引擎视频云业务过去 10 年一直在积累的「抖音同款能力」——为数亿用户提供流畅稳定的视听体验。
到 2023 年大模型兴起之后,音视频内容不再只是制作出来供人观看的内容,还成为了 AI 感知世界、理解需求的重要媒介。再到 2026 年上半年,行业跑步进入 Agent 时代,音视频又从 AI 感知的媒介,进化成为了 AI 与人实现意图对齐、输出任务成果的媒介。
音视频从内容媒介到交互媒介的变化,也给视频云的发展带来了新变化。
一方面,视频云仍然需要持续提供传统技术能力。清晰度、低延迟、稳定性、并发能力和成本效率,仍然是视频云向外提供服务的工程地基。尤其在直播、电商、在线教育、泛娱乐和出海视频服务中,存储、带宽、CDN、转码、RTC 等能力依然决定了业务能否规模化运行。
另一方面,新的任务已经变得非常明确——视频云的服务对象要从人扩展到人和 Agent,让更多产品享受到「豆包同款」的技术能力。OpenAI Realtime API、Google Gemini Multimodal Live API 等产品的推出,也都在证明低延迟语音、视频和多模态交互正在成为 AI 应用的关键能力。
IDC 相关资料显示,2025 年上半年 AI 驱动的「音视频 AI 实时互动与智能媒体生产」细分市场就已达到 4000 万美元量级,同比实现大三位数增长。这意味着,视频云的新增量会来自 AI 应用对实时音视频交互、智能媒体生产和任务交付能力的持续需求。
要抓住这个机会,就得像王悦所说,视频云在 Agent 时代需要从「音视频云服务能力」进化为「连接人与 Agent 的新型智能音视频能力底座」。
最终,新的 Agentic VCloud 会成为 Agent 时代的一项主力基础设施,而不只是像 VCloud 阶段一样只为音视频领域提供服务。它应该让一个企业的数字员工轻松听懂会议语音并识别屏幕内容,也应该让一个内容创作 Agent 轻松地把一句自然语言拆解成素材理解、画质增强、剪辑、编码和发布流程。
二、如何重构出 Agentic VCloud
从 VCloud 到 Agentic VCloud,视频云的技术坐标系也在进行一次本质跃迁。过去,视频云是服务人类感官体验的内容系统,只面向人类用户响应操作、提供功能;现在,视频云在全速迈入 Agent 意图交付(Intent-to-Outcome)的新时代,要面向 Agent 完成意图理解、能力编排、动态调度,并交付可验证的结果。
这会考验视频云的底层架构是否面向 Agent 原生设计,能否提供 Agent 友好的标准化工具能力,能否在真实业务中实现高质量、规模化交付。满足这些要求的视频云需要具备服务长周期任务链路的能力,包括持续感知、理解、推理、工具调用、环境反馈、结果交付。
简而言之,视频云要为 Agent 的完整任务链路提供技术底座。为此,火山引擎 Agentic VCloud 构建了两项核心能力:多模态链路,负责支撑 Agent 的感知与环境反馈;AI MediaKit,负责支撑 Agent 的工具调用与结果交付。
多模态链路是 Agent 的感知基础设施。Agent 主要通过多模态链路来连接实时世界、获取任务目标、得到环境反馈。只有让 Agent 得到实时的、丰富的上下文信息,才能保证其准确、高效地执行任务。这条多模态链路会包括 MoQ(Media over QUIC)多模态传输和多模态网关。
其中,MoQ(Media over QUIC)多模态传输负责支撑信息的高效流动。它统一了媒体语义、媒体对象和媒体传输,能够在 Agent 语义场景下同时解决低延迟和大规模并发难题,实现小于 600ms Agent 建连时延与亿级 AI 会话并发。
多模态网关则要在大模型概率世界和确定的物理世界之间搭建语义桥梁,实现 Agent 与实时物理世界的连接,解决信息对齐的问题。为了避免 Agent 把「戴尔」听成「海尔」,火山引擎做到了支持 10ms 语义判停、多模态音画同步以及 99.99% 的语义级可靠传输。
AI MediaKit 则服务于 Agent 的行动,是 Agent 友好的音视频开发套件,能把视频云积累的「能力组件」编排进「Agent 意图交付」的链路中。
有了这个开发套件,当用户对 Agent 说出「把这段直播录制画质提升后发布到抖音」时,就不再需要指定编码器、分辨率和增强算法,而是直接由 Agent 配合 AI MediaKit,把这句话的意图解析成结构化需求,再完成编排、调度和结果交付。
为了实现这种效果,AI MediaKit 构建了一个 Agent-Native 的三层架构:
最上面是意图层(Media Intent),面向 Agent 提供声明式 API、端云结合的 CLI、媒体领域知识 Skill 和 LLM 原生的 MCP 协议,能够围绕意图声明清楚「要什么」以及「有哪些约束」;
中间是媒体工作流层,能够把「要什么」和「有哪些约束」自动编排成可执行的算子级工作流,支持对图像、音频、视频、文本四种模态内容的处理,具备感知、增强、编码、剪辑、生成五类基础能力;
最底层是媒体运行时,是负责交付可验证的音视频产物的执行层。这一层能够实现端云结合,并能通过算法、算力、芯片和架构持续提升音视频任务交付产物的完成度。
在上一层编排完成的媒体工作流,会在这一层根据不同的任务复杂度被调度到端侧或云侧上执行。云上为执行高阶任务提供了 Comet 编码芯片、有 GenVR 音视频增强等相应的高阶能力,本地则会利用 FFmpeg 这类基础能力完成基础任务。
火山引擎正是通过这种技术系统的重构,推动了视频云迈入 Agentic VCloud 阶段。
三、从比拼视频体验到比拼 Agent 落地
从 VCloud 到 Agentic VCloud,视频云服务的链路也正在被拉长。过去,VCloud 更多是在某个环节提供能力支持,例如转码、分发、存储、播放或实时通信;现在,Agentic VCloud 要进入 Agent 的完整任务链路,从理解意图开始,参与编排、调度、执行和结果验证。
从被调用的能力模块到支撑任务 Agent 落地的基础设施,视频云的价值衡量维度也随之产生变化。
过去,视频云更多是在「保下限」:别卡顿、别变糊、别宕机,同时把带宽和算力成本压下去。Agent 时代的视频云还要「提上限」:让 AI 能够精准理解音视频上下文,用自然语言触发复杂工作流,并交付达到企业级可用标准的结果。
「今天我们可以很容易地把音视频任务的完成度做到 20%,努努力也可以做到 60%。但是在企业级场景中,20% 的完成度不过是玩具,60% 的完成度也只算一个 Demo,连及格线都谈不上。我们认为,突破 90% 的完成度,才算真正迈过企业级产品的门槛。」火山引擎多媒体基础产品负责人杜佑表示,结果的完成度才是行动的终点。
价值衡量维度的变化,也会带来视频云竞争逻辑的变化。
功能、参数和成本,这些能力依然重要,但会越来越像进入赛道的入场券,而不再是决定性差异。新的竞争焦点变成了:谁能把模型、媒体处理、实时通信、工具调用、算力调度和行业 Know-how 组合成稳定闭环;谁能让 Agent 在真实业务里完成长周期任务;谁能在成本可控的前提下,把任务完成度从 Demo 水平推到企业级水平。
这也在一定程度上体现了火山引擎提出建设 Agentic VCloud 的行业意义。它不是一次单纯的产品升级,而是视频云进入新周期的信号:当视频从信息载体变成任务载体,当视频云从内容基础设施变成 Agent 基础设施,行业的价值边界就会被重新定义。
这也是一个重构市场格局的节点。谁能更快完成周期切换,谁就更有可能在 Agent 时代建立新的服务能力和竞争优势。
来源:互联网



