
鱼灯破水,凌空游城;火狮踏焰,奋跃腾空;一群剪纸奔马通体透亮,在壁中狂奔;一纸诗词垂挂成瀑,于天幕间翻卷——2026 年央视春晚合肥分会场《合韵满江淮》,用一连串美轮美奂的超现实奇观,刷新了虚实融合的想象边界。
鱼灯破水,凌空游城;火狮踏焰,奋跃腾空;一群剪纸奔马通体透亮,在壁中狂奔;一纸诗词垂挂成瀑,于天幕间翻卷——2026 年央视春晚合肥分会场《合韵满江淮》,用一连串美轮美奂的超现实奇观,刷新了虚实融合的想象边界。

鲜有人知的是,支撑这些 4K 级画面的技术核心,来自智象未来团队提出的 PS-SR,一个「伪单步」(Pseudo-Single-Step)视频超分框架。凭借这一突破性工作,该成果被计算机视觉顶级会议 CVPR 2026 接收。
把天马行空的创意落地为春晚级的播出画面,不仅需要在 4K 画质下,高效处理海量实拍与生成素材,更重要的是,60 帧率,每一帧都要经得起逐秒推敲。鱼灯的鳞片反光必须与水波同频,奔马的筋肉在疾驰中不能有丝毫畸变,AI 生成的特效要与真人实景严丝合缝地「长」在一起,仿佛它们本就属于那个时空。
然而,这一切的前提离不开一项基础能力:视频超分。没有足够清晰、稳定、真实的底层 4K 画面,那些极致的画面细节,虚实之间的无缝融合,都无从谈起。
当视频超分辨率(Video Super-Resolution, VSR)走向真实应用,一个绕不开的问题出现了:模型究竟应该更快,还是更好?
单步模型速度快,适合部署,却往往难以补出真实高清视频中的高频纹理;多步扩散模型细节丰富、视觉质量强,却因为反复迭代而计算昂贵。对于长视频、高清分辨率和接近实时的视频增强场景来说,这个矛盾尤为尖锐。
智象未来的团队提出了 PS-SR,一个「伪单步」(Pseudo-Single-Step)视频超分框架。它并不简单地把多步扩散压缩成一次前向传播,而是重新分配扩散采样中的计算角色:强大的 base model(基础模型)只执行最关键的一步,确定全局结构与内容一致性;轻量 draft model(草稿模型)再接力完成后续细节增强。通过这种投机扩散(Speculative Diffusion),PS-SR 试图同时获得接近单步模型的速度,以及多步扩散模型擅长的视觉丰富度。

论文标题:PS-SR: Pseudo-Single-Step Video Super-Resolution via Speculative Diffusion
项目主页:https://waq2001.github.io/PS-SR-page/
视频超分的老难题:快与好为什么总要二选一?
视频超分不只是把低分辨率画面放大。真实低清视频通常同时包含压缩伪影、噪声、模糊、纹理缺失和运动退化。模型不仅要恢复单帧纹理,还要保证连续帧之间不闪烁、不漂移。
基于 CNN 或 Transformer 的传统 VSR 方法效率较高,也能保持较强的输入输出一致性,但面对严重退化时,往往只能给出偏平滑的安全结果。扩散模型带来了更强的生成先验,可以在低清人脸、车辆结构、衣物纹理等区域补出更自然的细节,却需要多步采样,推理成本高。
近年来的单步扩散蒸馏方法试图破解这个问题,但单步模型很难完整继承多步扩散的迭代创造力。复杂纹理本来是在多轮更新中逐渐形成的,一次性生成时,模型容易退回到更平均、更保守的预测。
PS-SR 的核心判断是:真正昂贵的计算未必每一步都需要。视频超分中的第一步最关键,它要稳住语义、结构和低频内容;后续步骤更多是在稳定基础上补高频细节。因此,与其让大模型完整跑多步,不如让大模型先打好地基,再让轻模型快速补纹理。
PS-SR:用投机扩散制造「伪单步」体验
PS-SR 的推理流程由两个不对称模型协作完成。
第一阶段由基础模型(base model)执行。该模型初始化自 Wan2.1-T2V-1.3B 视频扩散模型,并通过 LoRA 适配到视频超分任务。它只进行一次全面采样,负责恢复画面的全局结构、语义内容和低频一致性。换句话说,这一步决定「画面应该是什么」。
第二阶段由草稿模型(draft model)接管。草稿模型 来自基础模型的轻量化版本,论文中采用从 30 个 DiT blocks 中裁剪 20 个的配置。为了让轻模型仍能获得强表征,PS-SR 将 基础模型 对应层特征拼接给 草稿模型,再通过全连接层恢复维度。这样,草稿模型 不需要重新理解整个视频,只需在强模型给出的基础上推测并补充细节。
训练上,基础模型先在 latent space 中学习从低质量视频到高质量视频的速度场,并结合 VSD 和对抗损失增强分布对齐与视觉真实感;随后进入 pixel-space training,通过 L2 损失与 LPIPS 损失提升局部质量。草稿模型则更聚焦于 refinement,主要通像素空间的 L2 损失与 LPIPS 损失学习高频细节恢复。
最终,PS-SR 形成一种「1+x」式采样体验:一个完整的基础模型采样步,加多个轻量草稿模型细化步。它不是严格意义上的单步模型,却在效率上接近单步,并保留了多步细化的空间。

频域更新:只补细节,不改内容
多步扩散的优势在于能不断细化纹理,风险也在这里:模型可能越改越清晰,却越改越不像原视频。为了避免这种语义漂移,PS-SR 提出了频域更新规则(Frequency-Domain Update Rule)。
这条规则的目标很直接:草稿模型后续步骤只允许注入高频细节,低频结构必须继承自前一步。具体做法是将当前视频和新预测视频转换到 YUV 色彩空间,在亮度通道上提取高频成分,再通过自适应权重融合高频信息,最后与原有低频内容和色度通道组合回 RGB 空间。
也就是说,基础模型 确定骨架,草稿模型 补充纹理,而频域更新规则负责守住边界:让增强发生在细节层面,而不是变成内容重绘。
消融实验也从可视化上验证了这一点。去掉频域更新规则后,模型更容易产生看似更锐利、但与原视频结构不完全一致的细节,局部纹理和边缘会出现偏移或重绘。下图展示了 FDU 的作用:它不是单纯追求锐度,而是在补充高频纹理的同时约束低频内容,让视觉丰富度与内容一致性保持平衡。

实验结果:质量、速度和时序稳定性的平衡
PS-SR 在 YouHQ 数据集上训练,评测覆盖合成数据集 UDM10、SPMCS、YouHQ40,以及真实世界低质量互联网视频数据集 VideoLQ。对比方法包括多步扩散模型 STAR、SeedVR,以及单步扩散类方法 DLoRAL、SeedVR2 和 DOVE。
在有高质量 GT 的数据集上,PS-SR 展现出很强的重建能力。以 UDM10 为例,PS-SR 取得 SSIM 0.7547、LPIPS 0.2444、DISTS 0.1277,均为对比方法中的最佳结果;在 SPMCS 上,PS-SR 取得 PSNR 22.092、SSIM 0.6287、LPIPS 0.2940、DISTS 0.1454,也体现出稳定优势;在 YouHQ40 上,PS-SR 获得 PSNR 21.772、SSIM 0.5873、LPIPS 0.3011 和 NIQE 3.7508 等有竞争力的结果。

论文同时强调,PS-SR 并不盲目追求无参考锐度指标最高。一些方法在 CLIP-IQA 或 MUSIQ 上更高,但可能伴随过度锐化和输入偏离。PS-SR 的目标是在重建准确性、视觉细节和内容一致性之间取得更均衡的结果。

时序一致性方面,PS-SR 在多个合成与真实视频场景中都表现出更稳定的帧间对齐。下图的可视化更直观地展示了这一点:相邻帧之间的结构漂移和纹理闪烁更少,说明 PS-SR 在增强细节的同时,也能更好地维持连续运动中的内容稳定性。

速度方面,PS-SR 的「伪单步」优势更直观。在 NVIDIA A800 GPU 上,对 29 帧、720×1280 分辨率视频进行推理,STAR 耗时 98.61 秒,SeedVR 耗时 188.93 秒,DOVE 作为单步方法耗时 20.43 秒;PS-SR 采用 1+3 步投机扩散,耗时 21.11 秒。也就是说,它只比最快的单步方法带来很小额外开销,却相比 50 步 SeedVR 快约 9 倍,相比 15 步 STAR 快约 4.7 倍。

结语:面向高保真视频增强的新范式
PS-SR 的意义不只在于提出一个新模型,更在于给扩散式视频超分提供了一种新的计算组织方式。
过去,视频超分常常被迫在两端摇摆:要么选择快速但偏平滑的单步模型,要么选择质量更好但昂贵的多步扩散模型。PS-SR 证明,这个选择并非绝对。强模型可以只完成最关键的全局一步,轻模型可以接力补足细节,而频域更新规则则保证这些细节不会越界成语义漂移。
这正是「伪单步」的价值所在:它不否认多步生成的必要性,而是让多步生成以更轻、更受控、更接近实际部署的方式发生。对于视频修复、低清素材增强、在线内容生产和高清化播放等场景,PS-SR 展示了一个兼顾速度、质量与稳定性的扩散式视频增强方向。
来源:互联网



