北大董豪谈具身大模型演进趋势:从模仿到强化、从单任务 Scaling 到通用 Scaling

摘要

北京大学计算机学院副教授、上纬启元首席科学家董豪近日在北大科技园交流中谈及具身大模型演进趋势。

北京大学计算机学院副教授、上纬启元首席科学家董豪近日在北大科技园交流中谈及具身大模型演进趋势。作为横跨具身智能领域产学研的专家,董豪拆解了当前模仿学习、强化学习、仿真数据集等主流技术路线的瓶颈,并提出全新横向二维 Scaling Law 框架,统一解释世界模型、生成式数据增强、人示教数据转化等前沿方案的底层逻辑,为家用、通用人形机器人落地指明技术演进方向。

以下为报告实录:

我至今仍清晰地记得 AlphaGo 团队做分享的场景——当时我就在伦敦,UCL 离我的住处很近。那场演讲给我留下了极为深刻的震撼,也让我对 AI 技术的演进逻辑有了更本质的思考。

AlphaGo 的成功,清晰地展现了 AI 能力跃升的第一套经典范式:先模仿,后强化。它首先通过海量人类棋谱进行监督学习,本质上就是模仿人类棋手的落子决策。但这种纯模仿学习有一个天然的天花板:模型的能力永远无法超越训练数据中人类的最高水平。

为了突破这个瓶颈,AlphaGo 引入了自对弈强化学习:让两个经过预训练的模型相互对弈,通过胜负结果产生明确的反馈信号。在这个过程中,模型不再受限于人类经验,能够自主探索出人类从未想到过的策略,最终实现了对人类顶尖棋手的超越。

这一「模仿 - 强化」的技术演进路径,在后来的 ChatGPT 身上得到了完美复刻。ChatGPT 首先基于互联网海量文本数据进行大规模预训练,这一阶段的核心依然是模仿学习——学习人类语言的表达方式和知识体系。而它之所以能从一个「会说话的模型」变成一个「会好好说话的模型」,关键在于引入了基于人类反馈的强化学习(RLHF):让模型对同一个问题生成多个回答,由人类标注员对不同回答的质量进行打分,再将这些人类偏好作为回报信号来微调模型。

与 AlphaGo 的自对弈相比,ChatGPT 的强化学习之所以需要引入人类,核心区别在于反馈信号的确定性:下棋的胜负由清晰的规则决定,是一个绝对客观的标准;而一个回答的好坏没有统一的规则可循,只能依赖人类的主观判断。

今天的具身智能大模型,依然在沿着这条被反复验证的技术路径前进。现阶段,我们首先通过采集大量人类专家的正确示范数据,让模型进行模仿学习,掌握基本的动作技能和任务流程。但纯模仿学习的固有缺陷在具身领域同样存在:模型只见过「正确的做法」,从未经历过「失败的场景」,一旦遇到训练数据中没有的意外情况,就很容易出错。

而目前解决这个问题最直接有效的方法之一,正是 2011 年提出的 DAgger(数据集聚合)算法。其核心思想非常朴素:当模型在真实环境中执行任务出现错误时,立即由人类专家接管并进行修正,然后将这些修正后的「纠错数据」回流到训练集中,对模型进行持续迭代训练。通过这种「试错 - 纠错 - 再训练」的闭环,模型的鲁棒性和泛化能力会不断得到强化。

值得一提的是,DAgger 算法最早被广泛应用于自动驾驶领域,但它在自动驾驶场景中遇到了巨大的落地障碍。一方面,自动驾驶的错误往往伴随着严重的安全风险,我们不可能为了采集纠错数据而放任事故发生;另一方面,自动驾驶对单次任务成功率的要求近乎苛刻,哪怕是万分之一的失误率都可能导致灾难性后果,长尾问题极其复杂。

相比之下,绝大多数具身智能任务的容错空间要大得多。以叠衣服为例,即使单次成功率只有 95%,模型完全可以在失败后重新尝试一次,直到成功为止。更重要的是,这些任务的失败通常不会产生任何不可挽回的严重后果。正是基于这一核心差异,我们有理由相信:具身智能的商业化落地速度,很可能会比自动驾驶更快。

然而,当我们把目光投向更远的未来,就会发现"模仿 + 强化"的 scaling law 范式虽然能解决单个任务的落地问题,却无法回答通用具身智能的终极命题。

自动驾驶本质上是在追求单一任务的极致优化——它只需要做好 "安全驾驶" 这一件事。但具身智能的终极目标截然不同:我们需要的不是一万个只能做一件事的专用机器人,而是一个能做一万件事的通用机器人。

这就意味着,传统 Scaling Law 的描述方式已经走到了尽头。过去我们只把数据量、参数量、计算量作为 Scaling 的维度,认为只要线性增加这些资源,就能获得线性的能力提升。但在具身智能领域,这套逻辑注定失效:你不可能为世界上每一个可能的家务动作、每一种可能的操作场景,都单独采集百万级数据、单独训练一个模型。单任务 Scaling 的边际收益会极速递减,最终陷入 "逐个任务攻克" 的死胡同。

因此,我们必须建立一个全新的 Scaling 视角:"任务数量 - 数据量"Scaling Law。我们要把 "任务数量" 作为与 "数据量" 同等重要的核心坐标轴。通用能力从来不是在单个任务上堆出来的,而是在海量不同任务之间迁移出来的。当模型在越来越多不同任务上进行训练时,它会逐渐掌握物理世界的通用规律——比如物体的刚性、重力的作用、摩擦力的影响、工具的通用使用方法。此时,面对一个从未见过的全新任务,模型的初始完成率会显著提升,达成高成功率所需的额外样本量会持续下降,真正实现 "越学越快、越学越省"。

今天行业里百花齐放的技术路线,无论是世界模型、UMI,还是仿真数据生成、人类第一视角视频预训练,看似方向分散,底层逻辑却高度统一:所有这些技术创新,本质上都是为了加速这条新的"任务数量 - 数据量"Scaling 曲线的成型。它们要么在提升单条数据的跨任务迁移价值,要么在降低新增任务的训练成本,最终共同推动具身智能从 "专用" 走向 "通用"。

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。