全面开源!商汤日日新 SenseNova U1 发布:迈向多模态理解与生成统一的新时代

摘要

今天,商汤科技正式发布并开源日日新 SenseNova U1 系列原生理解生成统一模型,标志着多模态大模型从「拼接式」走向「原生统一」的关键一步。

一、SenseNova U1 概览:原生统一的多模态大模型

今天,商汤科技正式发布并开源日日新 SenseNova U1 系列原生理解生成统一模型。该模型基于商汤于今年 3 月自主研发的 NEO-unify 架构,在单一模型架构上统一了多模态理解、推理与生成。

NEO-unify 架构彻底摒弃了主流的拼接式方案,去除了视觉编码器(VE)和变分自编码器(VAE),重新构建了统一的表征空间,并将其深入融入每一层计算之中,从而实现从「模态集成」向「原生统一」的范式跨越。

SenseNova U1 系列模型能够将语言与视觉信息作为统一复合体直接建模,实现语言与视觉的高效协同,让理解与生成能力同步增强;在保留语义丰富度的同时,维持像素级的视觉保真度。

在逻辑推理与空间智能等方向上,它能够深度理解物理世界的复杂布局与精细关系;未来还能为机器人提供「具身大脑」,在单一模型闭环内完成从复杂环境感知、逻辑推演到精准任务执行的全过程,为推动技术与产业发展提供重要基础与关键引擎。

 

本次开源版本:SenseNova U1 Lite

本次开源发布的是 SenseNova U1 的轻量版系列 SenseNova U1 Lite,包含两个不同规格的模型:

 

    • SenseNova-U1-8B-MoT:基于稠密骨干网络
    • SenseNova-U1-A3B-MoT:基于混合专家(MoE)骨干网络

更多信息请访问 GitHubHugging Face。我们也将在近期公布详实的技术报告。

二、极致高效,以小搏大:开源 SOTA,比肩商用闭源模型

效率,是统一模型架构的核心技术优势。

 

传统拼接式架构的瓶颈

传统多模态模型把视觉编码器和语言骨干通过适配器拼接在一起,像一个「说不同语言的人组成的工作组」:有人专门看图,把图像翻译为语言;有人专门理解文字、进行推理;有人再把结果翻译为设计指令、把图画出来。每完成一次任务,信息都要在不同成员之间来回传递。这个过程虽然可行,但难免出现等待、误解和信息损耗——为了弥补这些损耗,模型往往需要做得更大才能达到好的效果。

 

 

SenseNova U1 的统一表征思路

SenseNova U1 基于统一表征空间构建,更像是一个从一开始就同时掌握多项技能的人。它不是先看懂图像、再翻译成文字、再交给另一个系统理解,而是在同一套「思考方式」里直接处理图像、文字等不同信息。图像和语言不再是两套系统之间的接力,而是在同一个大脑中自然融合。这样带来的好处是:信息流转更快、理解更直接、生成更高效。模型不需要依赖单纯堆大参数来弥补中间转换损耗,而是通过统一的内部表征,把不同模态信息以更紧凑、更高密度的方式组织起来。

 

简单来说,传统架构像是「多人协作、层层转述」;SenseNova U1 更像是「一个全能大脑,直接理解,直接表达」。少了中间转译,信息损耗更低,也能在相对更精简的模型规模下,实现更强的多模态理解与生成能力。

 

基准测试:同量级开源 SOTA,部分指标比肩商用闭源

实验结果验证了我们的判断。在涵盖图像理解、图像生成与编辑、空间智能和视觉推理的多项基准测试中,SenseNova U1 Lite 均达到同量级开源模型 SOTA 水平,为统一多模态理解与生成树立了新的标杆。甚至仅凭 8B-MoT 的较小规格,就能达到甚至超越部分大型商业闭源模型,展现出全维度多领域的统治力。

 

SenseNova U1 Lite在多项图像理解基准测试中的得分对比图,与同量级开源模型及商业闭源模型横向比较

图:图像理解基准测试结果

SenseNova U1 Lite图像生成基准测试结果对比表,展示其在主流文生图评测集上达到开源SOTA水平

图:图像生成基准测试结果

SenseNova U1 Lite视觉推理基准测试结果,展示其在空间智能与逻辑推理任务上的领先表现

图:视觉推理基准测试结果

 

效率与质量的双优:对比 Qwen-Image 2.0 Pro、Seedream 4.5

以下两组对比图更直观地展现了 SenseNova U1 Lite 在效率上的突出优势。在通用图像生成测试中,SenseNova U1 Lite 不但在生成质量上比肩 Qwen-Image 2.0 Pro、Seedream 4.5 等大型闭源模型,达到商业级水准,还在推理响应速度上具有显著优势。即使在极具挑战性、开源模型一直做不好的复杂信息图生成任务中,SenseNova U1 Lite 也表现出商业级水准,对复杂信息图的排版与文字具有很强的控制力。

 

SenseNova U1 Lite在OneIG、LongText、BizGenEval等综合图像生成评测上的生成延迟与平均性能散点对比图

Generation Latency vs. Averaging Performance on OneIG (EN, ZH), LongText (EN, ZH), BizGenEval (Easy, Hard), CVTG and IGenBench

SenseNova U1 Lite在BizGenEval和IGenBench信息图基准上的生成延迟与平均性能对比图,凸显效率优势

Generation Latency vs. Averaging Performance on Infographic Benchmarks, i.e., BizGenEval (Easy, Hard), and IGenBench

 

实际案例:商业级复杂信息图生成

以下实际例子展现了 SenseNova U1 Lite 的商业级复杂信息图生成能力。

 

SenseNova U1 Lite生成的复杂信息图实例,展现商业级排版与文字控制能力

SenseNova U1 Lite输出的中文信息图样例,演示模型对版式与多元素文字的精准生成

SenseNova U1 Lite生成的图文信息图作品,展示统一模型在复杂版面下的生成效果

SenseNova U1 Lite信息图生成案例,体现其在文字排版和图文融合方面的商业级表现

SenseNova U1 复杂信息图生成案例 5

SenseNova U1 复杂信息图生成案例 6

SenseNova U1 复杂信息图生成案例 7

SenseNova U1 复杂信息图生成案例 8

SenseNova U1 复杂信息图生成案例 9

SenseNova U1 复杂信息图生成案例 10

我们正在沿着当前技术路径继续 Scale,并计划在未来推出体量更大的模型。我们相信,基于高效的原生架构,可以以低得多的计算成本达到国际顶尖模型的水平。

三、业内首创:连续性图文创作输出

凭借 NEO-Unify 架构的优势,SenseNova U1 在业内首个实现连续性的图文创作输出。仅需单次单模型调用,即可输出更高质量的作品;相比传统范式,效率获得大幅提升。

SenseNova U1 所具备的原生图文理解生成能力,能天然将图像与文本的底层融合信号完整保留在上下文中。区别于过去只能依靠多模型串联勉强实现的方案,它在图像间的风格上具备明显的高一致性,能在统一表征空间中进行高效连贯的思考。

下面两个案例中,SenseNova U1 通过连贯、高保真度的图文交错思考完成输出。

 

案例一:五分熟牛排做法

SenseNova U1 可以通过思考与规划产生分步过程,并为每一步输出对应的图像展示,各步骤的图示之间表现出极高的一致性。

 

SenseNova U1 案例:五分熟牛排做法图文分步演示

 

案例二:绘制一个钢铁侠图案

它可以从扫描草稿出发,逐步进行连续创作,最终生成完成度很高的图像。每一步创作都对前一步的结构与细节做了精准的保持——一个统一表征的共享上下文在其中发挥了关键作用。

 

四、全网开源,即刻可用

开源部署

    • 欢迎调用 SenseNova U1 Skill,浏览海量样例库,获取 Prompt 编写指南,化繁为简(繁杂文 → 有趣图),让您的 Agent 成为信息图生成高手。

在线体验

    • 即将上线「办公小浣熊」

我们相信,原生统一的多模态智能是通往 AGI 的必经之路。未来,我们将持续推动开源生态建设,并发布更大参数规模的 U1 系列模型,欢迎社区广大用户与开发者提出宝贵建议,共同定义智能交互的未来。

* NEO-unify 技术博客:https://www.sensetime.com/cn/news-detail/51170548?categoryId=73

SenseNova U1 Lite 专属群,欢迎入群扫码交流~↓↓↓

SenseNova U1 Lite 专属交流群二维码

+++

关于商汤

作为人工智能软件公司,商汤科技以「坚持原创,让 AI 引领人类进步」为使命,旨在持续引领人工智能前沿研究,打造更具拓展性、更普惠的人工智能软件平台,推动经济、社会和人类的发展,并持续吸引及培养顶尖人才,共同塑造未来。

商汤科技拥有深厚的学术积累,并长期投入于原创技术研究,不断增强行业领先的多模态、多任务通用人工智能能力,涵盖感知智能、自然语言处理、决策智能、智能内容生成等关键技术领域,同时具备 AI 芯片、AI 传感器及 AI 算力基础设施在内的关键能力。

商汤科技业务涵盖生成式 AI、视觉 AI 和创新业务,以高效率、低成本、规模化的 AI 创新与落地,打通商业价值闭环,引领人工智能进入工业化发展阶段。商汤前瞻性打造新型人工智能基础设施——商汤 AI 大装置 SenseCore,打通算力、算法和平台,并在此基础上建立「商汤日日新 SenseNova」大模型及研发体系,以低成本解锁通用人工智能任务的能力。此外,商汤科技持续领跑计算机视觉市场,商汤方舟 SenseFoundry 以多年积累的计算机视觉能力,辅以前沿多模态大模型,为国内外各行业提供更加稳定高效的视觉 AI 支撑。

商汤倡导「发展」的人工智能伦理观,并积极参与有关数据安全、隐私保护、人工智能伦理道德和可持续人工智能的行业、国家及国际标准制订,与多个国内及多边机构就人工智能的可持续及伦理发展开展了密切合作。商汤《AI 可持续发展道德准则》被联合国人工智能战略资源指南选录,并于 2021 年 6 月发表,是亚洲唯一获此殊荣的人工智能公司。

目前,商汤科技已于香港交易所主板挂牌上市。商汤在香港、上海、北京、深圳、成都、杭州、西安、新加坡、曼谷、吉隆坡、利雅得、阿布扎比、迪拜、首尔等地设立办公室;另外,商汤科技在德国、泰国、印度尼西亚、菲律宾等国家均有业务。更多信息,请访问商汤科技网站、微信、微博和领英。

媒体联络及查询

商汤科技

邮箱:pr@sensetime.com

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。