CVPR 2026 | 支撑春晚合肥 7 分钟的 4K 画面奇观 PS-SR 让视频超分不用在速度与质量间为难

鱼灯破水，凌空游城；火狮踏焰，奋跃腾空；一群剪纸奔马通体透亮，在壁中狂奔；一纸诗词垂挂成瀑，于天幕间翻卷——2026 年央视春晚合肥分会场《合韵满江淮》，用一连串美轮美奂的超现实奇观，刷新了虚实融合的想象边界。

鲜有人知的是，支撑这些 4K 级画面的技术核心，来自智象未来团队提出的 PS-SR，一个「伪单步」（Pseudo-Single-Step）视频超分框架。凭借这一突破性工作，该成果被计算机视觉顶级会议 CVPR 2026 接收。

把天马行空的创意落地为春晚级的播出画面，不仅需要在 4K 画质下，高效处理海量实拍与生成素材，更重要的是，60 帧率，每一帧都要经得起逐秒推敲。鱼灯的鳞片反光必须与水波同频，奔马的筋肉在疾驰中不能有丝毫畸变，AI 生成的特效要与真人实景严丝合缝地「长」在一起，仿佛它们本就属于那个时空。

然而，这一切的前提离不开一项基础能力：视频超分。没有足够清晰、稳定、真实的底层 4K 画面，那些极致的画面细节，虚实之间的无缝融合，都无从谈起。

当视频超分辨率（Video Super-Resolution, VSR）走向真实应用，一个绕不开的问题出现了：模型究竟应该更快，还是更好？

单步模型速度快，适合部署，却往往难以补出真实高清视频中的高频纹理；多步扩散模型细节丰富、视觉质量强，却因为反复迭代而计算昂贵。对于长视频、高清分辨率和接近实时的视频增强场景来说，这个矛盾尤为尖锐。

智象未来的团队提出了 PS-SR，一个「伪单步」（Pseudo-Single-Step）视频超分框架。它并不简单地把多步扩散压缩成一次前向传播，而是重新分配扩散采样中的计算角色：强大的 base model（基础模型）只执行最关键的一步，确定全局结构与内容一致性；轻量 draft model（草稿模型）再接力完成后续细节增强。通过这种投机扩散（Speculative Diffusion），PS-SR 试图同时获得接近单步模型的速度，以及多步扩散模型擅长的视觉丰富度。

论文标题：PS-SR: Pseudo-Single-Step Video Super-Resolution via Speculative Diffusion

项目主页：https://waq2001.github.io/PS-SR-page/

视频超分的老难题：快与好为什么总要二选一？

视频超分不只是把低分辨率画面放大。真实低清视频通常同时包含压缩伪影、噪声、模糊、纹理缺失和运动退化。模型不仅要恢复单帧纹理，还要保证连续帧之间不闪烁、不漂移。

基于 CNN 或 Transformer 的传统 VSR 方法效率较高，也能保持较强的输入输出一致性，但面对严重退化时，往往只能给出偏平滑的安全结果。扩散模型带来了更强的生成先验，可以在低清人脸、车辆结构、衣物纹理等区域补出更自然的细节，却需要多步采样，推理成本高。

近年来的单步扩散蒸馏方法试图破解这个问题，但单步模型很难完整继承多步扩散的迭代创造力。复杂纹理本来是在多轮更新中逐渐形成的，一次性生成时，模型容易退回到更平均、更保守的预测。

PS-SR 的核心判断是：真正昂贵的计算未必每一步都需要。视频超分中的第一步最关键，它要稳住语义、结构和低频内容；后续步骤更多是在稳定基础上补高频细节。因此，与其让大模型完整跑多步，不如让大模型先打好地基，再让轻模型快速补纹理。

PS-SR：用投机扩散制造「伪单步」体验

PS-SR 的推理流程由两个不对称模型协作完成。

第一阶段由基础模型（base model）执行。该模型初始化自 Wan2.1-T2V-1.3B 视频扩散模型，并通过 LoRA 适配到视频超分任务。它只进行一次全面采样，负责恢复画面的全局结构、语义内容和低频一致性。换句话说，这一步决定「画面应该是什么」。

第二阶段由草稿模型（draft model）接管。草稿模型来自基础模型的轻量化版本，论文中采用从 30 个 DiT blocks 中裁剪 20 个的配置。为了让轻模型仍能获得强表征，PS-SR 将基础模型对应层特征拼接给草稿模型，再通过全连接层恢复维度。这样，草稿模型不需要重新理解整个视频，只需在强模型给出的基础上推测并补充细节。

训练上，基础模型先在 latent space 中学习从低质量视频到高质量视频的速度场，并结合 VSD 和对抗损失增强分布对齐与视觉真实感；随后进入 pixel-space training，通过 L2 损失与 LPIPS 损失提升局部质量。草稿模型则更聚焦于 refinement，主要通像素空间的 L2 损失与 LPIPS 损失学习高频细节恢复。

最终，PS-SR 形成一种「1+x」式采样体验：一个完整的基础模型采样步，加多个轻量草稿模型细化步。它不是严格意义上的单步模型，却在效率上接近单步，并保留了多步细化的空间。

频域更新：只补细节，不改内容

多步扩散的优势在于能不断细化纹理，风险也在这里：模型可能越改越清晰，却越改越不像原视频。为了避免这种语义漂移，PS-SR 提出了频域更新规则（Frequency-Domain Update Rule）。

这条规则的目标很直接：草稿模型后续步骤只允许注入高频细节，低频结构必须继承自前一步。具体做法是将当前视频和新预测视频转换到 YUV 色彩空间，在亮度通道上提取高频成分，再通过自适应权重融合高频信息，最后与原有低频内容和色度通道组合回 RGB 空间。

也就是说，基础模型确定骨架，草稿模型补充纹理，而频域更新规则负责守住边界：让增强发生在细节层面，而不是变成内容重绘。

消融实验也从可视化上验证了这一点。去掉频域更新规则后，模型更容易产生看似更锐利、但与原视频结构不完全一致的细节，局部纹理和边缘会出现偏移或重绘。下图展示了 FDU 的作用：它不是单纯追求锐度，而是在补充高频纹理的同时约束低频内容，让视觉丰富度与内容一致性保持平衡。

实验结果：质量、速度和时序稳定性的平衡

PS-SR 在 YouHQ 数据集上训练，评测覆盖合成数据集 UDM10、SPMCS、YouHQ40，以及真实世界低质量互联网视频数据集 VideoLQ。对比方法包括多步扩散模型 STAR、SeedVR，以及单步扩散类方法 DLoRAL、SeedVR2 和 DOVE。

在有高质量 GT 的数据集上，PS-SR 展现出很强的重建能力。以 UDM10 为例，PS-SR 取得 SSIM 0.7547、LPIPS 0.2444、DISTS 0.1277，均为对比方法中的最佳结果；在 SPMCS 上，PS-SR 取得 PSNR 22.092、SSIM 0.6287、LPIPS 0.2940、DISTS 0.1454，也体现出稳定优势；在 YouHQ40 上，PS-SR 获得 PSNR 21.772、SSIM 0.5873、LPIPS 0.3011 和 NIQE 3.7508 等有竞争力的结果。

论文同时强调，PS-SR 并不盲目追求无参考锐度指标最高。一些方法在 CLIP-IQA 或 MUSIQ 上更高，但可能伴随过度锐化和输入偏离。PS-SR 的目标是在重建准确性、视觉细节和内容一致性之间取得更均衡的结果。

时序一致性方面，PS-SR 在多个合成与真实视频场景中都表现出更稳定的帧间对齐。下图的可视化更直观地展示了这一点：相邻帧之间的结构漂移和纹理闪烁更少，说明 PS-SR 在增强细节的同时，也能更好地维持连续运动中的内容稳定性。

速度方面，PS-SR 的「伪单步」优势更直观。在 NVIDIA A800 GPU 上，对 29 帧、720×1280 分辨率视频进行推理，STAR 耗时 98.61 秒，SeedVR 耗时 188.93 秒，DOVE 作为单步方法耗时 20.43 秒；PS-SR 采用 1+3 步投机扩散，耗时 21.11 秒。也就是说，它只比最快的单步方法带来很小额外开销，却相比 50 步 SeedVR 快约 9 倍，相比 15 步 STAR 快约 4.7 倍。

结语：面向高保真视频增强的新范式

PS-SR 的意义不只在于提出一个新模型，更在于给扩散式视频超分提供了一种新的计算组织方式。

过去，视频超分常常被迫在两端摇摆：要么选择快速但偏平滑的单步模型，要么选择质量更好但昂贵的多步扩散模型。PS-SR 证明，这个选择并非绝对。强模型可以只完成最关键的全局一步，轻模型可以接力补足细节，而频域更新规则则保证这些细节不会越界成语义漂移。

这正是「伪单步」的价值所在：它不否认多步生成的必要性，而是让多步生成以更轻、更受控、更接近实际部署的方式发生。对于视频修复、低清素材增强、在线内容生产和高清化播放等场景，PS-SR 展示了一个兼顾速度、质量与稳定性的扩散式视频增强方向。

来源：互联网

最新文章