新壹科技李璋：垂直大模型为数字人带来全新路径

近日,2024 中国生成式 AI 大会在上海落下帷幕。作为 AI 视频生成赛道前沿技术专家, 新壹科技 AI 算法主任架构师李璋受邀参会, 发表了以《视频垂直大模型在智能数字人中的应用》为主题的精彩演讲, 介绍了新壹科技在 AI 领域的最新研究成果, 并结合典型应用案例及场景, 展示了公司在数字人和视频生成方面的技术和实践, 引发了与会人士的广泛关注与讨论。

新壹科技 AI 算法主任架构师李璋在活动现场分享

自年初 Sora 问世以来,AI 视频生成领域风起云涌。适值年末, 从学术界到应用端, 都在致力于不断分解 AI 视频生成赛道尚未解决的问题, 以期为视频生成大模型及应用产品带来更优质的体验。

作为国内首个视频垂直大模型「新壹视频大模型」团队的核心成员, 李璋亦从他的视角带来了分享:

新壹科技 AI 算法主任架构师分析数字人

新壹科技的 AI 转型之旅

演讲伊始, 李璋首先介绍了新壹科技的发展历程及在 AI 方向的主要业务布局。他提到, 新壹科技的前身一下科技在移动视频、视频推荐方面有很深积累。随着 AI 技术的飞速发展, 公司逐渐将重心转向 AI 领域, 并聚焦于视频生成赛道。

在转型过程中, 新壹科技不断探索和实践, 逐渐形成了自己的核心技术优势。李璋表示, 公司目前主要集中在数字人和视频生成两大领域, 致力于通过 AI 技术为用户带来更加丰富、生动的交互体验。

由泛至专 从通用大模型到垂直大模型

随着大模型的普及和应用, 其参数量不断增大, 导致部署和训练成本也随之上升。这对于很多非大厂公司来说, 无疑是一种挑战, 垂直大模型或是未来 AI 发展弯道超车的重要方向。

与通用大模型相比, 垂直大模型更加专注于特定领域应用, 如视频生成、数字人等。新壹科技在垂直大模型的研发和应用方面取得了显著成果, 这样在保留大模型强大能力的同时, 降低部署和训练成本, 使得更多公司能够享受到 AI 技术带来的红利。

视频生成大幅提升垂直领域新质生产力

2023 年, 新壹科技成功推出了国内首款专注于视频生成的大模型——新壹视频大模型。该模型在数字人动作、表情和视频质量方面进行了全面优化, 也给用户带来了更加逼真、生动的视频体验。

据李璋介绍, 新壹科技在视频生成大模型的研发过程中, 攻克了多项技术难题。例如, 在数字人动作模拟方面, 公司采用了先进的动作捕捉技术和深度学习算法, 使得生成的视频中人物动作更加自然流畅;在表情迁移方面, 通过生成式对抗网络实现表情的精准迁移, 让数字人也能展现出更拟人化的丰富多样情感。

此外, 新壹科技还积极推动视频生成大模型在各个领域的应用。目前围绕新壹视频大模型的产品及应用平台, 已拥有超 300 万用户, 每天生成超 15 万分钟视频, 客户覆盖保险金融、媒体营销、出版、政务、汽车、医疗和教育等多个领域, 大幅提升了各垂直领域的创造和生产力。

垂直大模型为数字人提供全新路径

在生成式 AI 技术蓬勃发展的背景下, 智能数字人已成为内容创作、虚拟助手和人机交互等领域的重要应用之一。然而, 传统生成模型在高精度、多模态的智能数字人生成中仍面临诸多挑战。不过, 垂直领域的大模型提供了一条全新路径。

李璋详细介绍了新壹科技的 AI 数字人产品架构:即底层能力部分接入大语言模型, 支持自然语言理解和生成, 使得数字人能够与用户进行流畅对话交流, 理解用户需求并给出相应回应。同时, 底层能力还支持声音克隆和多种数字人形象 (如实人、卡通、3D 等), 为用户提供更加丰富的选择。

中间层则负责处理各种复杂的 AI 任务, 如人脸关键点检测、表情迁移和风格迁移等。通过先进的算法和技术手段, 中间层能够确保数字人在各种场景下都能展现出逼真的表情和动作。

应用层则支持多端交互, 新壹科技已推出与百大剧院合作的一体机交互系统。用户可以通过手机、电脑等多种设备与数字人进行互动, 感受科技带来的魅力;一体机交互系统则为用户提供了更沉浸式的体验, 让用户仿佛置身于一个真实的虚拟世界中。

在演讲过程中, 他还展示了多个数字人应用案例, 包括数字人播报、实景数字人、图片数字人和直播数字人等。这些案例亦也展示了新壹科技在 AI 数字人领域的创新成果、应用实力, 以及视频垂直大模型在智能数字人领域的强大潜力和商业价值。

来源：互联网

最新文章