可灵 2.1 最强首尾帧上线生成效果提升 235%

8 月 22 日，可灵 AI 正式推出基于 2.1 模型的全新首尾帧功能。该功能通过端到端多模态语义推理能力的升级，显著提升首尾帧功能视频生成效果。据评测数据显示，与此前 1.6 版本相比效果提升 235%，在视频转场、视觉冲击力、复杂运镜及创意营销等维度表现尤为突出。

攻克转场难题多场景丝滑衔接

可灵 2.1 模型首尾帧功能的核心突破之一，是解决 AI 视频生成中常见的转场难题，如场景衔接生硬「刹车感」强等。测试视频中，一名年轻亚洲女性从堆满书籍与佛像的房间转身，镜头推进至金色装饰逐渐增多的空间……过程中，角色发型（长发自然垂落转为侧梳）、服装（白色长袖衬衫变为无袖上衣）、光线（暖光由散射转为聚焦）均实现无缝衔接，场景切换逻辑清晰连贯。

该案例通过多个首尾帧相接实现连续多个丝滑转场，也验证了模型对艺术风格切换与角色动态衔接的精准把控。

强化视觉冲击效果打造超燃视觉特效

此次可灵 2.1 首尾帧可实现强烈的视觉冲击效果，助力轻松打造超燃视觉特效。实测视频中展现了极具张力的人物变身过程，人物轮廓在深蓝背景中逐步蜕变为纯火焰形态，火山岩浆流动、星空背景下的烈焰升腾等细节均清晰呈现，节奏与危险紧张的氛围高度匹配，体现出模型对复杂视觉元素的精准控制。

专业级复杂运镜全面提升沉浸感

可灵 2.1 首尾帧可以支持电影级复杂运镜，通过首尾帧连续衔接，实现镜头轨迹与场景逻辑的高度匹配。例如，在模型连续生成的这两个视频中，镜头先快速向左下摇镜，突出趴在地上爬行的破旧机器人，随后快速左摇，拍摄逃窜机器人与爆炸场景……整个过程镜头调度一气呵成，过程丝滑流畅。

创意十足轻松打造高质感营销素材

全面升级后的首尾帧功能还可快速生成符合品牌调性的创意展示视频，广泛适用于市场营销等领域，显著降低素材制作成本。例如，在这个饮品广告案例中，易拉罐快速从树莓中飞出，周围的树莓如爆炸般散开，果汁向四周飞溅，整个过程丝滑自然，给观众带来身临其境的沉浸式体验。

横评碾压表现超越Midjourney与Seedance

专业评估人员对可灵 2.1、可灵 1.6、Seedance1.0 mini、Midjourney 等模型的首尾帧功能进行了客观的效果评测。结果显示，可灵 2.1 首尾帧在整体效果及多个细分维度上均表现优异，与 Seedance1.0 mini 对比的整体 GSB 得分达到 2.09，与 Midjourney 对比的整体 GSB 得分达到 2.30，与可灵 1.6 对比的整体 GSB 得分达到 3.35。同 Midjourney、Seedance1.0 mini 进行两两偏好对比显示，可灵 2.1 首尾帧的胜率分别达到 62%、57%。

注：GSB 指标用于衡量群体意见的一致性和正负倾向，GSB 值越大，说明模型优势越大

这一卓越表现得益于可灵 2.1 在端到端优化的多模态语义推理能力上的进一步提升。模型能够深度整合用户的提示词与首尾帧图片中的丰富视觉语义及动作意图，高效融合多模态数据，精准捕捉并推理画面元素在时空维度上的演变逻辑。无论是不同艺术风格的切换、角色间的丝滑衔接，还是复杂运镜与场景迁移，都能在语义驱动下生成自然流畅且充满想象力的动态画面。

与此同时，可灵 2.1 引入了自适应扩散引导与方向重定向机制，进一步提升了视频生成的稳定性和专业质感。该机制在扩散生成的每一步对条件分布进行动态引导和纠正，有效修正偏离语义或视觉逻辑的动态路径，确保动作衔接平滑、运动节奏稳定可控。

此外，模型在生成过程中严格保持人物/物体身份一致性、色彩风格与画面基调的连贯统一，显著提升了视频的专业质感。即使面对高动态场景下的挑战（如局部失真、细节破碎、缩放变形及首尾帧视觉跳变等问题），该机制依然表现出强大的错误抑制与纠正能力，确保生成内容的稳定性和可信度。

作为全球领先的 AI 创意生产力平台，可灵 AI 已累计完成 30 次迭代，服务用户突破 4500 万，累计生成视频超 2 亿条、图片超 4 亿张，覆盖广告、影视、游戏等多个行业。此次 2.1 模型首尾帧的推出，进一步提升了视频生成一致性和稳定性，广泛适用于广告营销、影视、短剧、动画等创意制作场景，进一步巩固了其在 AI 视频生成领域的领先地位。

来源：互联网

最新文章