
能干活的AI。
8月18日,在百度AI Day上,百度文库联合百度网盘发布了全球首个全端通用智能体「GenFlow 2.0」 。
GenFlow2.0的发布,铺开了一条多线任务并行的「高速公路」,支持超过100个专家智能体同时工作,能在3分钟内并行完成超过5项复杂任务,其生成速度号称是主流同类产品的10倍。
更重要的是,它瞄准了当前 Agent 的三大核心痛点:漫长的「等待感」、过程不可控的「失控感」,以及千人一面的「陌生感」,并率先在行业内实现了「分钟级交付、过程可干预、记忆可追溯」。
百度文库的目标从一开始就非常明确。
百度集团副总裁,文库事业部、网盘事业部负责人王颖在采访中反复强调一个词:“能干活的AI”。她认为,如果只是做一个ChatBot,那它就是“动嘴,干不了什么活,很难帮用户实现交付”。这种“以终为始”的路线选择差异,决定了 GenFlow 2.0 从诞生之初,就不是一个简单的聊天机器人,而是一个被设计用来拆解、调度、执行复杂工作流,并实现全模态高质量交付的「超级生产力」。
在这场关于 Agent 的竞赛里,GenFlow2.0已经携其独特的生态优势——百度文库与百度网盘这两个服务超10亿用户的“国民级产品”——打响了关键一枪。
一、解构 文库GenFlow 2.0:从「串行等待」到「并行协同」
要理解 GenFlow 2.0 的颠覆性,首先要看清当前主流 Agent 产品的核心局限——「串行工作流」。
想象一下,你需要 AI 帮你完成一份市场分析报告。这个任务可能包含:全网搜索最新行业数据、整理关键信息、根据你网盘里的竞品资料进行对比、生成分析图表、最后汇总成一份PPT。
在传统的串行模式下,AI 就像一个只有一个大脑和一双手的人,必须按顺序一步步完成:搜完数据,再整理;整理完,再做图表……整个过程耗时漫长,且环环相扣,任何一步出错都可能对上下文造成干扰,导致最终结果偏差。用户能做的,只有等待。
图片来源:百度
文库GenFlow 2.0 的核心突破,在于用「并行」彻底取代了「串行」。
这得益于其自研的 Multi-Agent 基础架构。在这个架构下,GenFlow 2.0 成为了一个由超过100个各有所长的「专家 Agent」组成的「AI专家团」。当它接收到复杂任务后,会像一个经验丰富的项目经理,瞬间将任务拆解,并分发给不同的专家。
搜索 Agent 负责深度检索全网信息,PPT Agent 开始构思演示文稿的结构,图表 Agent 准备可视化数据,而网盘资料管家Agent 则同步在用户的个人云端数据库中寻找相关资料。
这些任务同时启动、并行处理,最终的交付时间取决于耗时最长的那一个环节,而非所有环节的总和。这正是 GenFlow 2.0 能实现「3分钟完成5+复杂任务」的核心,也是其速度能领先同类产品10倍的关键所在。
在移动端,这种并行协同的体验被设计得更为直观。传统的「瀑布流」式进度条被创新的「并列式」工作流视图所取代,用户可以清晰地看到每一个专家 Agent 的分工与实时进度,仿佛在指挥一个真实的专家团队。
如果说并行架构解决了「慢」的问题,那么「全程可干预」的设计,则解决了 AI Agent 另一个缺陷——过程的不可控性。
传统的 Agent 在执行任务时,就像一个封闭的「黑盒」。用户提交需求后,难以在中途添加新想法、补充新材料,或者修正 AI 的理解偏差。一旦发现最终交付不符合预期,往往只能推倒重来。
GenFlow 2.0 打破了这个黑盒。它允许用户在任务执行的任何阶段随时暂停、追问、补充需求,甚至直接修改 AI 的「思考内容」。
比如,在 AI 规划任务大纲时,你可以暂停它,补充一句「请重点分析xx」,或者上传一份最新的调研报告作为参考。AI 会立刻将新信息融入后续的工作流中,而无需从头再来。
百度文库产品负责人钟昊在访谈中强调这是一种「真干预」,而行业里现有的干预机制,大多是让任务“全部重新来一遍”的「假干预」。
GenFlow 2.0 能够做到这一点,背后是复杂的技术和策略支撑。百度文库研发负责人杨在申解释,其核心在于对“状态的管理”。系统拥有一个消息通讯总控来同步协调各任务进度,并且能实现任务中断后,对上下文工程的精准保存与重新激活。这套机制,将用户从一个被动的「需求提出者」转变为一个主动的「项目指挥官」,实现了真正意义上的人机协同。
通用 Agent 的另一个通病是「千篇一律」,难以提供个性化的内容。GenFlow 2.0 通过打造「记忆库」和深度打通百度生态,试图解决这个问题。
「记忆库」能记住并运用用户在文库和网盘的历史沟通记录、上传下载的文件等信息。它会分析用户的聊天记录、搜索偏好,从而在每一次交付时都更贴近用户的个人风格和需求。当你第二次让它生成报告时,它可能会记得你上次对报告格式的偏好。
更强大的个性化能力来自于与百度生态资源的全面打通。在用户授权后,GenFlow 2.0 可以随时检索和调用用户授权后百度网盘中存储的个人资料 。
这意味着,它可以基于你过去所有的工作文档、学习资料、照片视频,来完成新的创作任务。当你在规划旅游攻略时,它可以调用百度地图;当你在进行学术研究时,它可以直接调用百度学术超过6.8亿的文献库和文库超过14亿的专业内容。
这种公域知识(文库、学术)与私域知识(网盘)的无缝结合,让 GenFlow 2.0 拥有了一个优势:它不仅拥有整个互联网的知识,更拥有专属于你的个人知识图谱。
这种高效、智能、可控的体验,建立在百度从 AI 重构之初就坚持的 MoE(Mixture of Experts,混合专家模型)底层架构之上。
王颖在采访中透露,不同于用一个庞大、高成本的单一模型包揽一切的路线,MoE 架构可以根据不同任务、不同步骤,灵活调用最合适的模型。
这种精细化的调度不仅保证了效果,更在成本和性能上取得了最优解,让复杂的 AI 服务能够以「民用级」的成本普惠大众。一个鲜活的例子是,其生成1分钟480p视频的成本,仅为行业平均水平的十分之一。
在实际体验中,我被文库GenFlow 2.0 的高效给惊讶到了。我让它分析一下最近半导体和低碳行业的情况,2分钟就输出了2万字的报告,这个速度,确实太快了。
图片来源:极客公园
视频来源:极客公园
我还试了一个多任务并行的任务,「最近接了个 IP 联名项目,要和泡泡玛特星星人推出一个“打工人治愈能量周边”系列,核心是用星星人形象做出“心理健康+职场自我关怀”的主题策划。我现在需要一整套提案材料,包括:一篇情绪洞察文档,说明打工人有多需要被星星人治愈;一套品牌合作提案 PPT(包含 IP 适配逻辑、产品组合、话题传播方向);最后一个是任务分解清单,方便我丢给团队迅速开干。」
从视频可以看出,GenFlow 2.0的这份任务完成还是很靠谱的,拆分任务并执行到位,可以算得上一个可靠的打工人伙伴了,而且,这些产出物料只花了几分钟,但如果靠人工,起码要花个几天。
二、文库网盘的「生态牌」与「用户心智」
GenFlow 2.0 的发布,还有一个核心,就是其「生态优势」。
在 AI 时代,数据和场景是构建护城河的关键。百度文库和百度网盘,这两个服务了数十亿用户的「国民级产品」,恰好为 GenFlow 2.0 提供了土壤。
文库拥有超过14亿的专业内容资源,网盘则存储着海量用户个人数据,服务超10亿用户。前者构成了高质量的公域知识库,后者则是规模庞大的私域知识库。
这种「公域+私域」的数据生态,是竞争对手在短期内难以复制的。它让 GenFlow 2.0 在理解用户意图、提供个性化服务方面,拥有了天然的领先优势。基于文库、网盘内容储备构建的行业知识图谱,是他们区别于同类产品的“优势或者壁垒”。
图片来源:百度
更深层次的战略,体现在 AI 对这两个国民级产品的「重构」上,文库网盘团队意识到,AI 的浪潮要求他们必须打破自己过去的「思维定式」和「肌肉记忆」。
“如果还是把文库和网盘按照原来的思路来做,”王颖在访谈中坦言,“那文库可能就是做一个AI助手帮你更好地找内容,网盘就是帮你更好地管理文件。这只是正常的日常迭代。”
但 AI 带来了突破原有边界的可能性。用户来文库找PPT模板,核心目的是「做」PPT,而不仅仅是「找」。用户在网盘存文件,最终目的是为了「用」这些文件,而不仅仅是「存」。AI 技术让百度得以将用户的需求链条从点连接成线,打通从「找、看、用、享」到「创、编、存、管」的全流程环节。
可以看到,百度文库已经从一个「内容获取平台」进化为「一站式AI内容获取和创作平台」,其智能PPT的月访问量已位列全球第一。百度网盘也升级为「一站式内容服务平台」,成为了AI时代的“超级生产力”。GenFlow 2.0以及内容操作系统「沧舟OS」 正是这两个平台能力融合、质变后的集大成者。
在 GenFlow 2.0 主打「全端通用」概念时,业界也存在一种声音,认为未来属于更懂行业的「垂直 Agent」。
对此,文库网盘的回答是:「通用和垂直不矛盾。」
王颖解释道,GenFlow 2.0 的架构是通用的,因为文库网盘的愿景是让AI“无所不能和无处不在”。但在这个通用架构之下,每一个被调度的 Agent 都是一个在特定领域经过千锤百炼的「专家」。
例如,PPT Agent 经过数亿用户的验证,已经具备全球领先的能力;研报 Agent 则率先实现了数万字专业报告的分钟级生成。这些 Agent 都是针对特定行业和场景,通过长时间的用户反馈和数据训练打磨出来的。
这种「通用平台 + 垂直专家」的模式,可以被理解为一种更高级的形态。王颖用“变形金刚”做了个生动的比喻:每个垂直Agent就像一个独立的小机器人,但最厉害的是能把它们组合起来的那个“大的变形金刚”。这种模式既满足了 ToC 市场用户需求的广泛性和多样性,又通过专业的 Agent 保证了在各个细分任务上的交付质量。
同时,GenFlow 2.0 保持了开放性。它兼容 MCP 协议,可以灵活地接入第三方服务生态。
文库网盘希望构建一个开放的平台,主动引入外部优秀的垂直 Agent,如已经合作的合同、闪绘等领域的专业公司,共同服务用户。与荣耀的合作,就是在将这种能力原生接入到硬件操作系统层面,展现了「AI原生智能 × 硬件原生协同」的未来图景。
三、关于「工作流」的未来
回顾过去一年,AI 行业经历了从模型参数之争,到应用场景之争,再到如今 Agent 形态之争的演进。如果说大模型是 AI 的「大脑」,那么 Agent 就是连接大脑与现实世界,让其具备行动能力的「手和脚」。
文库 GenFlow 2.0 的发布,不再满足于做一个「聊天很厉害」的 AI,而是要做一个「干活很利索」的 AI。它所挑战的,是用户长期以来形成的、围绕不同软件工具切换的「肌肉记忆」。
用户的真实需求往往是连贯且复杂的,但现有的工具链却是割裂和碎片化的。
我们常常在 Word、Excel、PPT、浏览器、图片编辑器之间来回跳转,将一个完整的「项目」人为地拆解成一个个「任务」。
王颖指出,用户形成这种使用多个工具的心智,并非主动,而是“被迫”的,因为过去没有一个工具能足够好地完成所有事。
GenFlow 2.0 试图做的,就是抹平这种工具间的沟壑,让用户回归到只关注「目标」而非「过程」。
当然,前路依然充满挑战。怎么才能让亿万用户真正改变根深蒂固的工作习惯?怎么在海量、复杂的真实世界任务中,始终保持高稳定性?
但无论如何,GenFlow 2.0 已经为我们描绘了一幅未来生产力图景。在这个图景中,AI 不再仅仅是我们使用的工具,而是与我们并肩协作的专家级「同事」。它能够理解我们的意图,调度所有必要的资源,以一种高效、并行的方式,完成复杂工作流。
关于 Agent 终极形态的战争才刚刚开始,未来,真正能胜出的,或许正是那个能将 AI 的智慧,最无缝、最深度地融入人类工作流的公司。