它石智航 WIYH 数据集正式开源：全球首个具身 VLTA 多模态数据，加速具身智能真实世界落地

12 月 26 日，它石智航重磅开源了全球首个大规模真实世界具身 VLTA（Vision-Language-Tactile-Action）多模态数据集——World In Your Hands（简称「WIYH 数据集」）：https://wiyh.tars-ai.com/。该数据集首次亮相于今年 10 月，并在刚刚结束的它石智航技术首秀发布上，作为「超级算法」中的核心成果之一得到行业广泛认可。首秀现场展示的世界首台可人工刺绣机器人等成果，其丝滑动作背后的核心正是基于 WIYH 数据集训练的 AWE2.0 模型。

WIYH 数据集通过首创「Human-centric」（以人为中心）的数据采集新范式，破解了遥操作数据采集规模化成本高、仿真数据在 sim2real 时存在 GAP，难以丝滑迁移到现实世界的痛点，填补了具身智能所需的高质量、可泛化、大规模真实世界数据的空白，为具身基座模型实现 Scaling Law 提供了关键语料。要知道，当前具身智能所需数据量与现有储备之间至少相差两个数量级，WIYH 的开源正为填补这一鸿沟提供了核心解法，加速了具身智能落地真实世界的进程。

在 Human-centric 采集范式下形成的 WIYH 数据集，具备了真实可靠、丰富多元、全面多模态、规模化等特征，并拥有海量数据：包含超过 10 万条以上的真实人类操作视频、40 余种任务类型、100 多种人类技能，覆盖了含 520 余种真实物品，真实还原商超、酒店、餐饮、工业、办公、家居等多行业的 10 种核心场景全链路任务，数据将分批次释放。WIYH 是业内最大的 Human-centric 数据集，且仍在不断扩展和丰富中。

场景和任务分布

各场景技能分布

物体和技能词云

采集了丰富的数据之后，行业还面临数据迁移这另一核心难题，为此它石构建了 TARS Datacore 具身数据引擎。作为云端大模型，它实现了全流程的自动化标注，将原始视频转化为机器人能理解的「教科书」。这套标注体系不仅涵盖了标定、深度、动作、指令、思维链 (COT)、掩码（Mask）和触觉（Tactile）等基础信息，更通过以下三类精准标注，形成了从感知到动作的全链路闭环：

原子任务标注：理解「做什么」。将复杂动作拆解为「抓取、移动、放置」等不可再细分的逻辑单元，并配以自然语言指令，让机器人明白长流程任务的操作顺序与步骤内涵；
图像感知标注：看清「在哪里」。通过云端语义模型给每个物体打上清晰的边界标签（掩码），并利用 3D 视觉技术计算画面中物与人的深度距离，赋予机器人精准的空间感，使其能理解物体的边界与远近；
视觉语言标注：思考「为什么」。这是最关键的「大脑训练」，它通过空间明确指代操作对象，防止机器人在杂乱环境中错认目标。同时，让模型预测下一步任务，并设置逻辑陷阱来校验机器人的判断力。

它石首席科学家丁文超博士表示，「Human-centric 数据采集范式配合 TARS Datacore 数据引擎，可以记录和生产最高质量、最丰富的具身智能数据，真正使得 scaling law 成为可能。」

强大的数据采集与迁移能力，共同打磨出 WIYH 数据集在空间推理、世界模型、跨本体迁移等方面的独特优势。目前，多项基准测试结果已印证了 WIYH 数据集的核心价值：

在视言大模型（VLM）的空间推理评测中，通过对 GPT-4o、Qwen-VL-Plus 等主流模型在空间推理（SR）和空间感知（SP）等维度的对比发现，虽然各模型在通用视觉任务上表现出色，但在处理复杂的以人为中心的空间逻辑时仍存在显著差异。这一基准测试直观地揭示了当前大模型在感知操作空间时的局限，也凸显了 WIYH 数据集在训练更高阶空间感知能力方面的独特价值。
在世界模型（World Model）的物理一致性验证上，WIYH 数据集展现了强大的「物理引擎」属性。评测结果显示，在加入 WIYH 数据后，COGVIDEO 和 DYNAMICRAFTER 等视频生成模型在一致性、流畅度、动态性和质量等四大关键指标上均实现了全面跨越，其中动态性（Dynamic）指标得分提升了 15.6 分。配合 4D 重建技术，通过对「倒酒」、「叠衣服」等任务进行精确的几何重建，为模型理解真实世界的物理动态提供了高真值的监督信号，确保生成的动作既流畅又符合物理常识。
在机器人跨本体迁移实验（Cross-embodiment Experiments）层面，WIYH 数据集真正实现了「从人到机器」的能力迁移。通过将人类演示视频与机器人操作数据进行协同训练（Co-training），机器人在复杂场景下的泛化能力得到了质的提升。实验数据表明，在极其杂乱的场景中，仅机器人操作数据只能达到 8% 成功率的任务，在引入 WIYH 人类视频辅助后，成功率暴涨至 60%。这一显著的性能增益证明了 WIYH 数据集不仅是视觉语料，更是提升机器人实战能力、解决真实世界非结构化环境操作难题的核心「养料」。

它石创始人兼 CEO 陈亦伦博士认为，「在 AI 领域，最极致的开放不是开源模型，而是开源数据集，因为所有的 AI 模型本质上都可以通过数据和合适的训练方法『生长』出来。」它石 WIYH 的此番开源，正是以开放的态度，为行业通用具身基座模型训练提供关键语料和基础设施，助力具身智能迈向通用智能的新高峰。

它石 WIYH 数据集于今日起（12.26）可正式访问。该网站构建了从认知到实践的全方位支撑：用户既能通过结构化的数据集全景展示、基准测试结果与典型用例，快速完成对数据集性能与场景的初步了解，又能配合快速入门指南与自动化 SDK，直接进入深度的落地实践与开发部署。网站公布了标准化的 off-the-shelf (OTS) 开源可复现方案，也放出了 TARS 商用级 Human-centric 数据解决方案 TARS SenseHub 的相关信息。TARS SenseHub 是由它石自研的超轻量数据采集套件，包含「眼睛」TARS-Vision 与「双手」TARS-Glove 两大关键组件。其核心理念是让人类和机器共享同一套感知体系，即机器人通过数据「能看人之所看，感人之所感」。

未来，它石智航将继续坚持以人为中心的具身数据与模型新范式，持续挖掘真实世界的数据价值，让面向万物、赋能万业的具身智能真正从实验室走进千家万户。

来源：互联网

最新文章