智象未来发布全新自回归图像编辑框架 VAREdit,0.7 秒完成高保真图像编辑

摘要

近日,智象未来团队正式推出全新自回归图像编辑框架 VAREdit,作为全球首个纯自回归的图像编辑模型,这也是该领域的又一重大突破。该框架不仅能够精准执行用户指令,避免过度修改,还将编辑速度提升至 0.7 秒级,为实时交互与高效创作开辟新路径。

近日,智象未来团队正式推出全新自回归图像编辑框架 VAREdit,作为全球首个纯自回归的图像编辑模型,这也是该领域的又一重大突破。该框架不仅能够精准执行用户指令,避免过度修改,还将编辑速度提升至 0.7 秒级,为实时交互与高效创作开辟新路径。

长期以来,扩散模型在图像编辑中虽能生成高质量画面,但存在局部修改牵动整体结构、编辑不够精准,以及多步迭代效率低等瓶颈。针对这一问题,VAREdit 首次将视觉自回归(VAR)架构引入图像编辑任务。它将编辑定义为「下一尺度预测」,逐层生成多尺度残差特征,实现局部精准修改与整体结构保持的统一。同时,团队创新设计了尺度对齐参考(SAR)模块,有效解决尺度匹配难题,进一步提升编辑质量与效率。

在权威基准 EMU-Edit 与 PIE-Bench 测试中,VAREdit 在 CLIP 与 GPT 等指标全面领先。其中,VAREdit-8.4B 在 GPT-Balance 指标上较 ICEdit 和 UltraEdit 分别提升 41.5% 和 30.8%;轻量版 VAREdit-2.2B 可在 0.7 秒内完成 512×512 图像高保真编辑,实现数倍提速。

目前,VAREdit 已在 GitHub 和 Hugging Face 平台全面开源。智象未来团队表示,未来将持续探索视频编辑、多模态生成等应用场景,推动 AI 图像编辑迈入高效、可控、实时的新纪元。

 来源:互联网

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。