它石智航 WIYH 数据集正式开源:全球首个具身 VLTA 多模态数据,加速具身智能真实世界落地

摘要

在具身智能领域,数据是智能的最重要燃料,它石智航正成为「为众人抱薪者」。

12 月 26 日,它石智航重磅开源了全球首个大规模真实世界具身 VLTA(Vision-Language-Tactile-Action)多模态数据集——World In Your Hands(简称「WIYH 数据集」):https://wiyh.tars-ai.com/。该数据集首次亮相于今年 10 月,并在刚刚结束的它石智航技术首秀发布上,作为「超级算法」中的核心成果之一得到行业广泛认可。首秀现场展示的世界首台可人工刺绣机器人等成果,其丝滑动作背后的核心正是基于 WIYH 数据集训练的 AWE2.0 模型。

WIYH 数据集通过首创「Human-centric」(以人为中心)的数据采集新范式,破解了遥操作数据采集规模化成本高、仿真数据在 sim2real 时存在 GAP,难以丝滑迁移到现实世界的痛点,填补了具身智能所需的高质量、可泛化、大规模真实世界数据的空白,为具身基座模型实现 Scaling Law 提供了关键语料。要知道,当前具身智能所需数据量与现有储备之间至少相差两个数量级,WIYH 的开源正为填补这一鸿沟提供了核心解法,加速了具身智能落地真实世界的进程。

在 Human-centric 采集范式下形成的 WIYH 数据集,具备了真实可靠、丰富多元、全面多模态、规模化等特征,并拥有海量数据:包含超过 10 万条以上的真实人类操作视频、40 余种任务类型、100 多种人类技能,覆盖了含 520 余种真实物品,真实还原商超、酒店、餐饮、工业、办公、家居等多行业的 10 种核心场景全链路任务,数据将分批次释放。WIYH 是业内最大的 Human-centric 数据集,且仍在不断扩展和丰富中。

场景和任务分布

各场景技能分布

物体和技能词云

采集了丰富的数据之后,行业还面临数据迁移这另一核心难题,为此它石构建了 TARS Datacore 具身数据引擎。作为云端大模型,它实现了全流程的自动化标注,将原始视频转化为机器人能理解的「教科书」。这套标注体系不仅涵盖了标定、深度、动作、指令、思维链 (COT)、掩码(Mask)和触觉(Tactile)等基础信息,更通过以下三类精准标注,形成了从感知到动作的全链路闭环:

  • 原子任务标注:理解「做什么」。将复杂动作拆解为「抓取、移动、放置」等不可再细分的逻辑单元,并配以自然语言指令,让机器人明白长流程任务的操作顺序与步骤内涵;

  • 图像感知标注:看清「在哪里」。通过云端语义模型给每个物体打上清晰的边界标签(掩码),并利用 3D 视觉技术计算画面中物与人的深度距离,赋予机器人精准的空间感,使其能理解物体的边界与远近;

  • 视觉语言标注:思考「为什么」。这是最关键的「大脑训练」,它通过空间明确指代操作对象,防止机器人在杂乱环境中错认目标。同时,让模型预测下一步任务,并设置逻辑陷阱来校验机器人的判断力。

它石首席科学家丁文超博士表示,「Human-centric 数据采集范式配合 TARS Datacore 数据引擎,可以记录和生产最高质量、最丰富的具身智能数据,真正使得 scaling law 成为可能。」

强大的数据采集与迁移能力,共同打磨出 WIYH 数据集在空间推理、世界模型、跨本体迁移等方面的独特优势。目前,多项基准测试结果已印证了 WIYH 数据集的核心价值:

  • 在视言大模型(VLM)的空间推理评测中,通过对 GPT-4o、Qwen-VL-Plus 等主流模型在空间推理(SR)和空间感知(SP)等维度的对比发现,虽然各模型在通用视觉任务上表现出色,但在处理复杂的以人为中心的空间逻辑时仍存在显著差异。这一基准测试直观地揭示了当前大模型在感知操作空间时的局限,也凸显了 WIYH 数据集在训练更高阶空间感知能力方面的独特价值。

  • 在世界模型(World Model)的物理一致性验证上,WIYH 数据集展现了强大的「物理引擎」属性。评测结果显示,在加入 WIYH 数据后,COGVIDEO 和 DYNAMICRAFTER 等视频生成模型在一致性、流畅度、动态性和质量等四大关键指标上均实现了全面跨越,其中动态性(Dynamic)指标得分提升了 15.6 分。配合 4D 重建技术,通过对「倒酒」、「叠衣服」等任务进行精确的几何重建,为模型理解真实世界的物理动态提供了高真值的监督信号,确保生成的动作既流畅又符合物理常识。

  • 在机器人跨本体迁移实验(Cross-embodiment Experiments)层面,WIYH 数据集真正实现了「从人到机器」的能力迁移。通过将人类演示视频与机器人操作数据进行协同训练(Co-training),机器人在复杂场景下的泛化能力得到了质的提升。实验数据表明,在极其杂乱的场景中,仅机器人操作数据只能达到 8% 成功率的任务,在引入 WIYH 人类视频辅助后,成功率暴涨至 60%。这一显著的性能增益证明了 WIYH 数据集不仅是视觉语料,更是提升机器人实战能力、解决真实世界非结构化环境操作难题的核心「养料」。

它石创始人兼 CEO 陈亦伦博士认为,「在 AI 领域,最极致的开放不是开源模型,而是开源数据集,因为所有的 AI 模型本质上都可以通过数据和合适的训练方法『生长』出来。」 它石 WIYH 的此番开源,正是以开放的态度,为行业通用具身基座模型训练提供关键语料和基础设施,助力具身智能迈向通用智能的新高峰。

它石 WIYH 数据集于今日起(12.26)可正式访问。该网站构建了从认知到实践的全方位支撑:用户既能通过结构化的数据集全景展示、基准测试结果与典型用例,快速完成对数据集性能与场景的初步了解,又能配合快速入门指南与自动化 SDK,直接进入深度的落地实践与开发部署。网站公布了标准化的 off-the-shelf (OTS) 开源可复现方案,也放出了 TARS 商用级 Human-centric 数据解决方案 TARS SenseHub 的相关信息。TARS SenseHub 是由它石自研的超轻量数据采集套件,包含「眼睛」TARS-Vision 与「双手」TARS-Glove 两大关键组件。其核心理念是让人类和机器共享同一套感知体系,即机器人通过数据「能看人之所看,感人之所感」。

未来,它石智航将继续坚持以人为中心的具身数据与模型新范式,持续挖掘真实世界的数据价值,让面向万物、赋能万业的具身智能真正从实验室走进千家万户。

来源:互联网

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。