值得买科技与人大高瓴人工智能学院首个多模态领域联合研究成果亮相 CNCC2024

摘要

10 月 24-26 日,2024 中国计算机大会(简称 CNCC2024)在横店举行。

10 月 24-26 日,2024 中国计算机大会(简称 CNCC2024)在横店举行。在 24 日的「AI+影视创作超级论坛」上,中国人民大学高瓴人工智能学院长聘副教授宋睿华围绕与值得买科技合作的首个研究成果《TiVA:Time-aligned Video-to-Audio Generation》(《TiVA:时序同步的视频到音频生成》)进行了主题演讲,具体阐述了该项技术能为内容创作所带来的突破性进展:除了提升 AIGC 内容生成尤其是声音生成方面的质量和智能化水平之外,也有望为 AIGC 内容生成带来更丰富的模态和更多想象空间。

本次大会由中国计算机学会主办,是我国计算领域涉及面最广、规模最大、影响力最强的学术、技术、教育和产业盛会。大会以「发展新质生产力,计算引领未来」为主题,邀请图灵奖获得者、国内外院士、国内外计算机领域知名专家和教育家、企业家及专业人士汇聚一堂,共享学术新进展、应用新技术、创意新理念,分享创新成果、展望前沿趋势。

据悉,此次的研究成果《TiVA:Time-aligned Video-to-Audio Generation》,在今年 7 月还被国际多媒体学术会议(ACM International Conference on Multimedia 2024,简称 ACM MM 2024)录用,并被选为口头报告。该会议由国际计算机协会(ACM)发起,是多媒体处理、分析与计算领域最具影响力的国际顶级会议。同时,此次研究成果已获得国家发明专利授权(专利名称:音频生成方法、视频生成方法、装置、设备和介质,公开号 ZL 202410613827.3)。

早在 2023 年 6 月,值得买科技就与中国人民大学高瓴人工智能学院宋睿华团队达成合作,聚焦大模型、AI 内容创作等相关内容研究。除 TiVA 外,双方还将在近期发布面向电商领域的共享基座检索增强架构(BSharedRAG)、多模态知识增强的视觉信息查询(MuKA)等多个 AI 研究成果。

此次 TiVA 研究成果主要聚焦在多模态内容创作和交互领域。当前,视频和音频的同步生成一直是多模态内容生成的技术挑战,大多数现有方法主要关注匹配视觉和声音模态的语义,而无法在时间对齐上实现精确同步。值得买科技与中国人民大学宋睿华团队通过深入研究,提出了新颖的时序同步的视频到音频生成框架-TiVA,该框架通过音频布局的概念,实现了视频内容到音频的高质量生成。其核心在于音频布局的创新使用,通过低分辨率的 Mel 频谱图来提供粗略的音频结构布局,帮助模型更好地理解和预测声音的起始和结束时间,从而实现更精确的时间对齐。

▲TiVA 架构图和生成结果示例

宋睿华具体阐释了 TiVA 的实现路径:通过新的音频信息表征形式 Audio Layout,即极低分辨率的梅尔谱,来表示音频的粗粒度语义和时间信息。在一个无声视频中,可以先对其视觉语义进行编码并预测 Audio Layout,然后利用语义编码和预测的 Audio Layout 作为条件信息,学习一个扩散模型生成音频。「各项客观和主观实验表明,我们的方法在生成质量、语义匹配和时间同步精度方面优于现有的 SOTA 方法。」宋睿华介绍。

在 TiVA、BSharedRAG、MuKA 等整个创新框架研究的过程中,值得买科技为研究提供了必要的集群算力支持和高质量脱敏的数据支持;平台积攒的大量真实用户图文、视频等素材和全方位的用户行为,也帮助研究人员获取了真实的消费互联网验证场景。实验结果表明,TiVA 在提高语义匹配和精确时间同步的同时,将生成速度加快了约 40%。

宋睿华在现场表示,合作的研究项目不仅在技术上取得了突破,更在学术研究和实际应用之间架起了一座桥梁。这离不开研究人员的专业和严谨,离不开值得买科技对学术研究的支持,相信这为学术界与产业界的合作树立了典范,「希望双方持续携手探索 AI 的新边界,为学术研究与创新应用带来更多价值」。

作为技术驱动型公司,值得买科技始终坚持以先进技术提升供需两端的连接效率。值得买科技坚信,优质内容具有不可替代的价值,在消费领域,不仅体现在助力消费者高效决策,也能有效帮助品牌与平台建立用户认知与认可。为此,值得买科技始终坚持以内容为核心,以技术为驱动,而此次合作成果,正是以 AI 技术能力提升内容创作水平的有机结合。

今年 5 月,值得买科技正式发布全面 AI 战略,不仅基于 AI 对现有业务、产品进行升级重塑,还利用 AI 重塑内容生产流程、不断提升内容生产能力和质量。在建设自身 AI 能力方面,值得买科技构建了由「1 个大模型、2 个数据库、3 个引擎、4 类应用」组成的 AI 产品矩阵;并将「什么值得买 APP」升级为「AI 原生的什么值得买 GEN2」,打造成一个「基于用户的个性化兴趣,应用 AI 技术对全网消费内容进行搜集、分析、提炼、推荐的消费内容平台」,借助 AI 主动为用户提取和理解内容、商品、价格等消费信息,基于用户兴趣给到消费者真正的「答案」。而已上线的 AI 购物助手「小值」,能够在深度理解用户意图的基础上,总结全网实时消费经验与电商信息,提供口碑总结、商品对比、商品推荐、全网比价等服务。

除了自身 AI 能力的持续提升,值得买科技还注重连接外部多领域合作伙伴,共建「AI+兴趣」双轮驱动的消费生态:在 AI 生态方面,与月之暗面、智谱华章、讯飞星火、MiniMax、腾讯云、百度云等通用大模型企业合作;在内容生态方面,与 36 氪、汽车之家、省广集团等进行合作;在产学研协同方面,与中国人民大学、南开大学、中欧国际工商学院、中央财经大学商学院等高校联合进行,共同探索 AI 创新协同新路径,近期与人大共同研究的两项 AI 创新成果也即将面世。

未来,值得买科技将坚持全面 AI 战略,携手更广泛、更多领域的合作伙伴,共同探索 AI 在学术、技术、商业上的创新和应用,共同推动 AI 生态创新协同发展,为创造消费信息自由流动的美好世界做出贡献。

来源:互联网

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。