一个视频 AI 创业者,怎么看「世界模型」的终局

摘要

从微软亚研院到京东,再到创立智象未来,CTO 姚霆用四年时间走了一条「技术派」的弯路和直路,而他对世界模型和创作 Agent 的判断,比外界早了不止半步。

这几天,Sora 宣布关停,即梦的订阅费涨了三倍,可灵月收入突破两千万美元,视频生成赛道的格局,正在急速重构。

就在这个时间节点,智象未来联合创始人兼 CTO 姚霆,和一群媒体朋友坐在北京的一个会议室里,聊了整整一个下午。他语速极快,逻辑密度极高,说到兴奋处甚至主动声明:「这段纯聊天,胡思乱想,不一定要写进稿子。」

但我觉得恰恰是这些「胡思乱想」,藏着他对整个 AI 创作赛道最真实的判断。

一、从「文生视频」到「端到端创作」,他们其实想清楚了一件事

很多人不知道,全球第一个「文生视频」的研究工作,是 2017 年由姚霆和潘博士在微软时完成的。

那时候画面分辨率只有 256×256,画质用他自己的话说「非常差,只能看出个大概」。但这个工作在当时是大胆的,从来没有人干过这件事。

后来他们离开微软,加入京东,做了以图搜图、商品审核、3D 数字资产,甚至做了物流仓的机械臂拣选系统,这条路子,今天看来是具身智能的前身。

2023 年,他们创立了智象未来。

他们的初衷很朴素:「AI for Science 或 AI for 生命,我们不了解,只能做见证者。但 Midjourney 和 ChatGPT 让我们看到,内容生成这件事跟我们相关,而且我们是做这个出身的。」

但做着做着,姚霆说他曾经「给自己挖了一个大坑」。他一直在纠结「文生视频」还是「图生视频」,纠结能力本身,而不是创作这件事。

「跳出来想,如果把『创作』当成任务,我就不该关心底层是文生还是图生。我要关心的是:能不能端到端地完成用户的创作需求。」他说道。

这个认知转变,直接决定了他们今年最重要的战略方向:做一个全模态的端到端创作 Agent 平台。

02「世界模型」的终局,他觉得或许是「轮回」

关于世界模型,这个圈子里每家都有自己的定义。姚霆给出了一个相当系统的分层:

从技术路线来看,世界模型目前有三个主流方向:一是在现有视频生成模型里融入物理规律和因果关系;二是根据用户指令实时渲染场景;三是同时生成视频和动作的 World Action Model,跟具身智能高度绑定。

但他觉得这些都还不是「终局」。

他把世界模型分了几个等级:静态图像是低等级,是对世界的复刻,视频加入了时间维度,交互型世界模型再加强理解,提高一级,融入物理规律和因果关系更进一步……「终局是轮回,今天我在这里蝴蝶扇一下翅膀,明天那边就要出现海啸,完美的因果关系,那才是真正的世界模型。」

这段话他自己说是「胡思乱想」,但接下来他给出了更接地气的判断:「世界模型好歹要跟物理世界打通。不打通,凭什么叫世界模型?所以它一定要有具身数据,一定要是全模态,才能做到任意输入、任意输出。」

从这个逻辑出发,他对当下的判断是:谁能率先构建出「全模态统一表达」的底座,谁就离世界模型最近。他特别提到了谷歌最近的一篇论文认为它提供了「大一统全模态共用表达」的可能性。

03,在字节快手的「双寡头格局」下,创业公司的活法

这是大家问得更频繁的一个问题。Sora 关停了,即梦背靠字节日活过亿,可灵有快手平台的正向循环。智象未来作为独立创业公司,护城河到底是什么?

姚霆的回答,可以拆解成三条:

第一,他们的认知要更新,而且坚持做正确的难事。他说,从 2023 年 UNet 架构,到 DiT,到后来做「自回归 + DiT」的融合架构,再到现在的全模态统一架构,每次迭代,他们都试图精准踩住技术突破口,「甚至在某些时间点还会领先三到六个月」。

第二,速度要比寡头更快。 他对「稳定版本」的定义很有意思:「用户用两次,能成功得到一次想要的结果,就算稳定版本。先推上线,让用户迭代,这样才有可能形成壁垒。」

第三,组织架构要灵活。 他打了个牌局的比喻:「上手一副牌很难改变,但出法不是唯一的。有时候王炸也要拆掉,这种方式才有可能面对大厂的竞争。」

他还提到一个反直觉的观点:「AI 时代非常卷,很难预估明天会发生什么,这反而是好事。大厂也面临同样的问题,每个人都有机会,而不是大厂有机会我们没有。」

不自嗨,也不悲观。这大概是他给自己的处世哲学。

聊到最后,他提到了一件很快就会发生的事:他们新推出的创作 Agent 产品,以及即将官宣的与诺亦腾机器人的具身智能数据合作。

目前,智象未来的公司 ARR 已经到了千万美金量级,距离 2023 年那个「只能看个大概」的视频,整整三年。

视频 AI 的战争远没有结束。而这支从微软亚研院出发的团队,依然走一条他们自己选择的路。

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。