Rokid 发布数字人、手势交互、全息空间、WebXR 等技术成果

摘要

在互联网时代,大家以一串 ID 存在于网络上,在 XR 时代,你将以何种形式活跃在元宇宙中?

在互联网时代,大家以一串 ID 存在于网络上,在 XR 时代,你将以何种形式活跃在元宇宙中?

6 月 23 日,Rokid 开展软件产品演示分享会,从 XR 交互引擎、XR 系统框架、XR 创新应用、AI 算法应等层面,相继演示了数字人、手势交互、YodaOS 国际化、全息空间 2.0、Open XR、MSpace、Light(WebXR)、AR 导航、6DoF 空间声场技术、全新端到端 ASR 算法等最新成果。

前沿技术成果接连上演,现场掌声雷动,Rokid 技术人 er 们也为 XR 时代的交互方式画下了新的蓝图。

发布 3D 数字人技术

让用户「捏」个活灵活现的自己

在元宇宙中,如何定制一个独一无二的形象?本次软件产品演示分享会带来了 Rokid 数字人最新技术成果——丰富可扩展的 3D 数字人模型和数字人引擎。

通过不同设计的眉毛、眼睛、鼻子、嘴巴、脸型以及装扮,Rokid 3D 数字人模型支持用户通过「捏脸」和换妆的方式,定制专属自己的形象。

目前,Rokid 数字人模型已基本满足亚洲用户群体,未来的数字人模型将以更多五官分类组合、肤色、发型、发色以及不同地域风格的服装等,让不同国家和地区的用户都可以拥有专属数字形象。

值得一提的是,通过音素识别解决方案打造的数字人引擎,在无需额外的摄像头捕捉面部的情况下,仅通过音频就能识别出人讲话的口型和情绪状态,实现声音和表情的高度同步,完整呈现用户的喜怒哀乐,让数字人形象更加灵活生动,可被广泛应用于游戏、社交、商超、公共场所导览等场景。

未来,Rokid 数字人技术不仅将以 SDK 的方式向行业开发者开放,同时还将登录 Rokid Air AR 智能眼镜,支持用户在设置界面定制自己的专属形象,Rokid 推出的多人在线协同应用——MSpace,也将接入数字人技术,让用户实现更好的交互体验。

首创单目 RGB 摄像头实现 2D、3D 手势交互

目前主流的 AR 眼镜一般都用 ToF 或多目摄像头来实现手势交互,但 Rokid 为面向未来的 XR 设备打造的方案仅通过单颗 RGB 摄像头和高帧率 IMU 传感器的 VIO 方法获得稳定性好、精确度高的 6DoF 追踪效果,而且基于同一颗摄像头相机共享数据,还可以用于完成自然、灵动的手势交互体验。

本次软件产品演示分享会,Rokid 技术团队就演示了全新升级的单目 2D RGB 手势交互技术,并带来了单目 3D RGB 手势交互技术的最新成果。其中,单目 2D RGB 手势交互实现了双手联动、虚空触发以及抬拉拖拽等互动,实现了更高的灵活度和更自然的交互。

单目 3D RGB 手势交互演示

基于深度学习算法和大量先验数据,使得使用单目 RGB 来重建 3D Hand 成为了可能。Rokid 自研的单目 3D 手势算法能在移动端实时重建手部姿态参数,包括手部 6DoF,手部关节点 26DoF,以及 Hand Mesh 信息,为 AR 的手势交互提供良好的算法基础。

MSpace 再升级

Light(WebXR)、AR 导航原生应用发布

在打造强有力的 XR 交互引擎的同时,Rokid 技术团队还带来了 Light(WebXR)、AR 导航原生应用,并对 MSpace 进行了重要更新。

① Light(WebXR)

实现 Web 端 XR 开发者和应用的轻松接入

市面上丰富的云游戏库,该如何通过 Rokid AR 玩起来?如何戴着 Rokid AR 看电影、看小说、逛论坛、浏览网页?轻量级内容聚合平台——Light(WebXR)重磅亮相,一站式解决用户多种需求。

未来,Light(WebXR)将登录 Rokid Air 应用商店,为用户带来更多 Web 端 XR 应用和资源。同时,Light(WebXR)支持了标准的 WebXR API,欢迎更多 Web 端 XR 开发者参与到 AR 生态建设中。

② MSpace

通过虚拟化身+空间声场技术,打造更真实的临场感

作为 XR 时代的原生应用,MSpace 具备屏幕共享、3D 内容协作、虚拟分身等核心能力。在此次软件产品演示分享会中,Rokid 技术团队带来了融合声场渲染、虚拟分身驱动、空间协同、全息渲染等技术的升级版 MSpace,实现了实时音频驱动虚拟分身的口型、表情与动作,让虚拟分身更形象生动。同时,升级版 MSpace 还支持空间中公有物体同步操作、私有物体随心操作,虚拟物体准确放置并能实现身临其境的光影效果。

③AR 导航

更临场感的导航体验,迷路星人再也不迷糊

手机导航不方便,传统的 2D 图标+单眼 AR 导航,不仅视角受限,提示还不够明显,AR 导航急需革新!

在此次软件产品演示分享会中,Rokid 技术团队就演示了围绕立体感、临场感和沉浸感为用户打造的身临其境、指哪去哪的 AR 导航体验。

相较于传统单眼模式,双目 AR 导航会让视觉在一定程度上减少和现实的割裂感,另外这款应用还采用了近大远小的空间透视关系和全局实时光照投影,能大幅度提升使用者的沉浸感。

关于导航用户最担心的精度问题,Rokid AR 导航通过采用高精度的地图、GPS 定位和磁力计校正来提高导航的精度。未来,Rokid AR 导航还将加入 SLAM 技术和地理信息系统平台,为用户搭建一个真正的虚实结合的元宇宙出行平台。

高能 AI 算法

一场关于技术变革的深度较量

在高能体验的背后,都离不开强有力的算法支持。Rokid 算法工程师的日常总是在极致中追求革新,落地人们关于元宇宙的一切畅想。此次,Rokid 就公开发布包括 Atauro Audio(6DoF 空间声场) 以及全新端到端 ASR 算法等最新成果,从声、形等多方面推动 AR 和 AI 技术革新。

①Atauro Audio(6DoF 空间声场)

让耳朵也进入元宇宙

在眼镜之后,耳朵也要进入元宇宙啦!通过 6DoF 空间声场技术,Rokid 正在实现关于「声临其境」的变革。6DoF 空间声场是声音在三维领域的体现,不同于传统双声道、立体音带来的听觉体验,6DoF 空间声场技术可以在混合现实中模拟声源与人耳之间因空间位置变化、有无遮挡物等带来的声音强弱与方向的变化,从而让 AR 眼镜为用户带来更具临场感的听觉体验。

6DoF 空间声场技术将会集成到全新升级版的 YodaOS-XR 操作系统中,作为 YodaOS-XR 操作系统的基础能力供行业开发者们进行调用。同时,Rokid 还计划推进更多应用于 AR 眼镜的特殊音效的开发,如环绕与微重低音的高保真音效等,以高效易用的 SDK 让开发者真正实现即拿即用。

②全新端到端 ASR 算法

实现从坐火车到乘飞机的升级

Rokid 语音技术不断升级,通过全新端到端语音技术,在原有基础上实现字错率降低 30%。

同时,本次升级不仅仅是传统意义上的优化,而是实现了从 0 到 1 的工业级语音识别技术革新和更简单的算法架构、更快的训练速度、更简单的接口、更容易的调试方式、更低的资源消耗,达到真正的「稳,准,快」效果。

未来,Rokid 端到端语音技术还将在小语种、垂直领域定制赋能 AR 行业等方面不断形成新的突破,值得期待。

系统框架再升级

更国际化、更开放、更高适配性

在此次软件产品演示分享会中,Rokid 技术团队还带来了全新升级的系统框架,包括多国语言、全息空间 2.0、OpenXR 标准等,让 Rokid YodaOS-XR 操作系统更加强大。

其中,Rokid YodaOS-XR 操作系统国际化再进一步,中、英、德、俄、西、葡、韩、日、意、法、马来、阿拉伯语等多种语言即将发布,进一步助力 Rokid 全球业务的持续推进!

Rokid 全息空间 1.0 也升级到了 2.0 版本。相较于 1.0 版本的头控 3DoF、眼镜中 3D 展示、语音识别技术三个交互方面探索,全息空间 2.0 实现了统一的 3D 物体控制框架,能对虚拟空间中的模型进行移动、旋转和缩放操作,从而使 AR 全息化体验更强。这一能力,Rokid 原生应用 MSpace 已直接移植,为 MSpace 远程协同空间添加更富有乐趣的全息模型。

除了 3D 物体控制框架,全息空间 2.0 的多模态交互方式还由虚拟控制器+SLAM+空间音频构成,可以为用户带来更强的临场感。值得一提的是,全息空间 2.0 仅通过一个 RGB 摄像头开发完成,实现了性能与成本的高度平衡。

在技术不断进步的同时,YodaOS-XR 操作系统在宣布全面支持 OpenXR 标准后,行业合作和落地应用也取得了突破性进展。在不久前,Rokid 与行业主流 3D 引擎 Cocos 达成战略合作,推动 OpenXR 标准全面落地。基于 OpenXR 标准打造的 AR 示例游戏《幽灵射手》也将登录 Rokid Air 应用商店,这也是 Rokid YodaOS-XR 操作系统宣布全面支持 OpenXR 标准以来,首款基于此标准接入的应用。

基于 OpenXR 标准,Rokid 将与更多行业开发者、游戏引擎公司达成合作,共同催动内容创作者的产出,为用户提供更为良好的内容环境,真正实现双赢。

技术的持续革新,延续着产品的生命力。Rokid 技术工程师们对极致技术的追求,正在让更自然的 AR 交互体验变成现实。未来,Rokid 将持续把最新的交互和技术融入操作系统 YodaOS-XR 中,打造全新的 AR 体验。在奔向 AR 未来的旅途中,让我们一起期待 Rokider 为行业开发者以及用户创造的惊喜!

来源:互联网

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。