影谱科技:实现“动作捕捉系统MCVS”的大规模商业应用

据海外媒体报道, 中国计算机视觉识别企业 Moviebook 影谱科技已经可以读懂视频, 并可以造一段「机器视频」无缝植入或替换原视频。

近日, 据 TechCrunch 报道, 影谱科技已经创建一款新型的「从视频中捕获动作」Motion Capture from Video System(MCVS) 的框架, 可以实现不再需要预先进行动作捕捉合成的高度结构化数据, 就可以让机器直接模仿大量已存视频片段来学习高难度技能, 允许数据驱动的模仿以生成无监督训练集。事实上,MCVSMCVS 是实现视频识别大规模商业化的基础。

该系统 MCVS 每天可以处理日常视频网络上的数百万端视频图像, 提取关键帧, 进行自动结构化, 为下游任务提供大量数字化资源, 如视频搜索、原生视频内容营销、视频内容创作、视频人脸识别、游戏生产等。

以下以译文:

据 TC 研究者称, 目前影谱科技 MCVS 已经在原生视频内容营销领域大规模应用, 视频识别系统作为云 API 被实现和部署到客户端应用程序中, 并将逐渐覆盖所有客户。下一步, 还会用这种技术来理解及模仿视频中出现的人类动作, 以实现影像内容的自动化制作。

这一人工智能系统可以帮助播放器、视频网站、电视台、影像制作企业等进行理解社交网络上每天诞生的数十亿的图像和视频。

对此, 美国媒体一致认为, 中国视频播放平台在面临内容的严格审查时期, 使用该人工智能对视频内容监督起到巨大作用作用。

理解视频是视觉感知领域内的一项基本主题。这包括很多经典的计算机视觉任务, 比如深度恢复、流估计、视觉里程计 (visual odometry)。这些技术有广泛的工业应用, 包括视频识别搜索、自动驾驶平台、交互式协作机器人等。

传统的视频识别框架是根据伯克利加州大学 (University of California, Berkeley) 提出的 DeepMimic 框架方法实现:机器可以模仿参考动作片来学习高难度技能, 但这些参考片段都是经过动作捕捉合成的高度结构化数据, 但数据本身的获取需要很高的成本。

最近, 据 TechCrunch 报道, 中国人工智能公司影谱科技 Moviebook 提出「从视频中捕获动作」 Motion Capture from Video System(MCVS) 框架, 可以实现不再需要预先进行动作捕捉合成的高度结构化数据, 就可以让机器直接模仿大量已存视频片段来学习高难度技能, 允许数据驱动的模仿以生成无监督训练集。事实上,MCVSMCVS 是实现视频识别大规模商业化的基础。

据报道称, 影谱科技 Moviebook 视频识别系统通过 MCVS 学习到的视频动作还原度很高, 有很好的泛化至新环境的能力, 例如从视频中自动捕获动作进行学习, 到机器重生视频;从动作学习、到创作一段全新视频。

众所周知, 在人类认知里, 无论是像明星表演这样日常任务还是惊人的杂技表演, 人类都可以通过观察他人来学习一些令人难以置信的技能。但是, 对机器人来说, 从这些海量的视频中学习技能仍是一项非常艰巨的任务。

随着全球开源视频数据的激增, 视频的商业化价值还仅限于营销及观影服务。以后, 通过 MCVS 我们比以往任何时候都更容易找到感兴趣技能的视频片段, 并实现机器学习, 实现视频内容的自动化生产。以每分钟都会有 300 小时的视频传到 YouTube 上的视频量计算,MCVS 所产品的视频识别及视频内容生产的商业价值将是成倍效益。

我们通过探访人工智能视频识别方面的技术专家, 获得一些行业观点。据 MIT 研究员称, 大多数模仿学习方法都需要简洁的表征, 比如从动作捕捉 (Mocap) 中记录的表征。但是获取 Mocap 数据相当麻烦, 通常需要大量仪器, 这无疑是阻碍商业化的最后一步。

Mocap 系统亦容易局限于遮挡较小的室内环境, 这会限制能够记录的技能类型。所以, 如果机器可以从视频片段中直接学习技能就再好不过了。

图片:使用 Mocap 捕捉演员动作并复现 3D 角色的动作 (电影《指环王》)。

现在, 影谱科技 Moviebook 提出从视频中学习技能的动作捕捉框架 (MCVS) 及训练集很好的解决这一框架难点。通过将计算机视觉领域最先进的技术与强化学习相结合, 我们的系统使机器能够从视频中学习各种技能。给定一个单目视频, 视频中有人表演侧手翻或后空翻等动作, 我们实现机器能够学习在物理模拟中再现该技能的策略, 而无需任何手动姿势注释, 这一举实现了视频自动结构化。

据 TC 报道,MCVS MCVS 是一种可以从视频中联合学习单眼深度、光流和自我运动估计的无监督学习方法。这三个分量可以根据 3D 场景的几何本质性质而组合到一起, 以一种端到端的方式联合学习实现,MCVS 每秒可处理 24 种不同元素视觉内容。

MCVS 框架

该框架包括三个阶段:姿势及轨迹估计、动作重建、动作模仿。输入视频首先接受第一阶段姿势及轨迹估计的处理, 预测每一帧中角色的姿势及轨迹。接下来, 动作重建阶段将姿势估计结果固化为参考动作, 并修复姿势估计结果可能带来的失真。最后, 将参考动作输入到动作模仿阶段, 利用强化学习训练机器模仿动作。

整个流程包含三个步骤:姿势及轨迹估计、动作重建、动作模仿。执行特定动作的人物视频片段和机器模型充当输入, 并学习一种控制策略, 使机器能够在物理模拟中再现该动作。

姿势及轨迹估计

我们在一个给定的视频片段中使用一个基于视觉的姿势估计器来预测动作执行者在每一帧中的姿势及运动轨迹, 自动实现视频结构化的「视频多模态的综合信息标签。MCVS 姿势及轨迹估计器建立在人体网格恢复 (human mesh recovery) 的基础上, 后者使用弱监督对抗性方法来训练姿势估计器以预测单目图像中的姿势。虽然需要姿势相关注释来训练姿势估计器, 但一旦训练完毕, 姿势估计器就可以应用于没有任何标注的新图像, 基于视觉的姿势估计器用于预测人物在每一帧中的姿势。

动作重建 (轨迹恢复及参考动作集)

动作重建是在视频播放过程中, 自动化完成各类视觉元素融合的过程。

由于姿势估计器针对每个视频帧独立预测人物的姿势及柜机, 因此各帧之间的预测可能不一致, 导致出现抖动噪声。而且, 尽管基于视觉的姿势估计器在近些年取得了显著进展, 但它们仍然偶尔出一些大错, 导致出现一些奇怪姿势。这些噪声可以呈现物理上无法模仿的姿势。因此, 动作重建阶段的作用就是减轻这些噪声, 以产生一些物理上更加可行的参照, 使机器更加容易模仿。为了做到这一点,MCVS 运用到 SFM(structure from motion) 方式, 从一堆同一场景的照片中恢复场景的三维结构和拍摄时相机位置, 系统处理摄像机的运动轨迹、处理遮挡关系、估计光照等一系列问题。

MCVS 这一过程可以显著提高参考动作的质量, 并且可以修复原始姿势预测里的大量噪声, 实现动作重建。完成从数据的收集、标注、清洗、过滤, 到训练、推理、上线, 完成了整个流水线的搭建, 并且不断进行迭代。

动作模仿

MCVS 动作重建后, 我们得到了参考动作模型, 接下来我们将训练机器机器模仿该技能。动作模仿阶段使用与模拟 mocap 数据类似的强化学习方法。奖励函数鼓励策略将每一帧中模仿机器机器的姿势和重建参考动作之间的区别最小化。

这种简单的方法效果非常的好, 机器机器能够学习多种高难度杂技技巧, 且每个技巧都仅通过一次视频展示习得。

与物体分类要建立图像级理解任务不同的是, 动态视觉应用场景下要得到图像像素级别甚至是子像素级别的分类结果才能更清楚的识别人脸动作及场景理解。MCVS-全卷积神经网络 (MCVS-FNN) 完成这一任务, 在 MCVS 中引入「组合性」的概念, 可以接受任意尺寸的输入图像, 采用反卷积层对最后一个卷积层的 feature map 进行上采样, 使它恢复到输入图像相同的尺寸, 从而可以对每个像素都产生了一个预测, 同时也保留了原始输入图像中的空间信息, 最后在上采样的特征图上进行逐像素分类, 相当于每一个像素对应一个训练样本。

进行像素级的分类从而高效的解决了语义级别的图像分割 (semantic segmentation) 问题, 在视频中场景训练、物体识别训练、人脸识别训练、图像检索训练等方面已经取得关键进展。

关于影谱科技:

影谱科技是业内领先的视觉技术企业、智能影像生产企业, 致力于 AI 和大文娱领域, 截至 2017 年完成 4.46 亿秒工程处理积累, 累计为全球数百家客户、近千品牌及 15 万部影像内容提供技术服务, 掌握视频结构化垂直领域的核心数据, 是国内 AI 视觉技术商业化领军企业。

最新文章