智象未来 x 商汤大装置:全栈赋能全球首个开放使用视频生成 DiT 模型

摘要

2024 年初,Sora 的惊艳亮相, 将文生视频技术推向 AI 领域竞争的新高地。

「连续 4 周千卡不间断训练、2 个月完成模型迭代, 先于 Sora 半年开放使用……」

2024 年初,Sora 的惊艳亮相, 将文生视频技术推向 AI 领域竞争的新高地。

彼时, 成立仅一年多的智象未来, 凭借在生成式 AI 和多模态领域的技术积累迅速响应, 仅用短短 2 个月时间便推出全球首个上线开放使用的图像和视频生成 (DiT) 架构模型, 并迅速在 vivago.ai 上线向全球用户提供视频生成服务, 把握了行业发展先机。

作为智象未来的坚实后盾, 商汤大装置为其提供了超稳定、超高效的 AI 基础设施支持, 以极致的资源利用助力智象未来快速完成模型迭代冲刺, 在新一轮竞争中巩固核心竞争力、开拓应用新场景。

智象未来技术总监潘滢炜博士表示:「作为 AI 创业公司, 我们深知快速响应行业变化的重要性。智象未来的模型迭代节奏快、训练强度大, 对算力基础设施的响应速度、稳定性和服务能力都有着极高需求。商汤大装置『灵活、稳定、专业』的支持能力, 为我们实现模型的多元化场景应用、打通商业闭环提供了坚实基础, 是我们值得信赖的长期合作伙伴。」

训练节奏按月迭代, 算力需求既要也要

2023 年 3 月, 当行业还在惊叹于 ChatGPT 震撼的对话式体验时, 刚刚成立的智象未来凭借在视频内容理解和生成领域的厚积薄发和敏锐洞察, 前瞻地瞄准了图像和视频赛道的多模态技术方向, 并在创立之初就制定了「1+3+N」的商业化布局策略, 以 1 个大模型为基础, 通过 3 条产品线形成市场触点, 满足 N 种使用场景。

早在 2024 年初 Sora 发布前, 智象未来自研的智象大模型便已具备 15 秒的文生视频能力。在 Sora 发布之后, 其迅速推出智象大模型 2.0 及 3.0 版本, 将模型架构从 U-Net 升级至 Diffusion Transformer (DiT), 不仅将视频生成时长提升至分钟级别, 画面自然度、内容和角色一致性亦有显著提升。更重要的是, 智象大模型 2.0 率先实现开放使用, 成为全球首个开放使用的图像和视频生成 (DiT) 架构模型。目前, 智象大模型已迭代至 3.0 版本, 在架构和应用层面进一步突破。通过引入全新扩散自回归架构 (DiT+AR), 在提升生成质量的同时降低推理能耗。在应用层面, 可广泛应用于运动镜头捕捉、影视特效制作、自然风光模拟以及物理世界的数字重现等多个领域, 展现了人工智能在创意产业与视觉艺术中的巨大潜力与应用价值。

不同于语言等单一模态模型, 多模态模型的训练更加复杂。其不仅需要融合文本、图像、音频等多种模态信息, 实现跨模态的深度理解与交互, 而且训练任务更加多样。不仅如此, 智象多模态大模型还几乎保持每月进行小版本迭代, 每半年开展大版本升级的节奏, 更对算力提出了「既要也要」的严苛要求:

一是要高效:大模型训练, 效率就是一切, 每一次版本升级都是一场与时间的赛跑。尤其是面对智象大模型版本迭代时的扩容需求, 需要迅速调度充足算力资源, 支持模型迭代冲刺。

二是要灵活:智象大模型具备图片生成、视频生成、图像和视频编辑等多种功能, 不同模态信息的训练任务对算力需求各有不同, 需要算力系统具备高度灵活性, 能够随时根据训练任务的具体需要, 匹配最优算力方案。

三是要稳定:大模型的训练需要连贯且稳定的系统运行, 任何一次系统中断都可能导致训练失败和资源浪费, 因此算力系统必须具备 7 x 24 小时不间断运行的绝对稳定性, 为模型迭代提供坚实后盾。

灵活、稳定、专业, 为模型迭代稳定护航

作为「最懂大模型的 AI 基础设施」, 商汤大装置以「灵活、稳定、专业」三板斧, 通过灵活的算力资源调度, 连续 4 周千卡不间断训练和专业高效的专家服务, 助力智象未来实现了 20% 的资源利用率提升, 让每一份算力都发挥到极致。

灵活:千卡算力按需调度, 实现最高投入产出比

充足的算力储备、极速灵活的响应能力是商汤大装置的核心优势之一。在 2024 年初, 商汤大装置运营算力规模已达到 12,000 PetaFlops, 目前更已提升至 23,000 PetaFlops。

为满足智象未来的模型迭代冲刺需求, 商汤大装置不仅快速调度了千卡级别的算力资源, 还提供了弹性的算力支持, 可按需分配资源规模, 通过灵活调度为智象未来提供最适配的算力方案。针对图片生成、视频生成、图像和视频编辑等不同训练任务, 都能通过资源自主划分、灵活任务抢占机制, 按照任务优先级灵活进行资源分配, 保证最大资源利用率, 实现更高投入产出比、更高经济性的基础。

稳定:千卡4周不间断,99.99%可靠性稳定护航

在基于千卡集群的模型训练任务中, 计算卡故障、通信异常等潜在问题如同暗礁, 随时可能会导致训练中断等稳定性问题, 影响训练进度。如果说算力是大模型训练的核心「生产力」, 那么稳定性则代表着「安全感」。有安全感的生产力, 才能真正提升生产效率。

从全程动态监控到多项保障机制, 商汤大装置以 99.99% 的可靠稳定性, 做到算力「零闲置」。在模型训练过程中, 可实时监控设备状态, 精准定位故障节点, 并在第一时间发出告警;通过故障节点自动剔除机制, 能够迅速将问题节点隔离, 减少训练中断风险;通过空闲节点无缝接入机制, 让训练任务能够从断点处迅速续训, 避免时间浪费。

得益于动态监控、异常检测等多种手段, 商汤大装置以分钟级的训练容错能力, 助力智象未来成功实现了连续 4 周千卡不间断训练的超稳表现, 为模型迭代稳定护航。

专业:全链条专家服务支持, 全程守护满满安全感

凭借在模型训练、AI Infra、模型量化推理等方面积累的深厚经验与专业知识, 商汤专家服务团队以敏捷、专业的支持能力, 协助智象未来高效精准地完成问题定位和溯源, 高效完成各类故障排查, 并助力优化训练流程、提升资源利用率。

全链路文生视频解决方案, 打通从数据到价值最后一公里

商汤大装置解决方案专家孟凡笑认为:随着文生视频模型研发和应用需求不断涌现, 行业所需的将不仅仅是高效、稳定的算力支持, 而是从数据处理、到模型训练, 再到推理部署的全链路解决方案。

基于对文生视频模型研发与应用需求的深刻理解, 商汤大装置已形成涵盖底层算力服务、IaaS 服务以及文生视频数据处理平台的全链路文生视频解决方案, 以端到端的 AI Infra 能力打通从数据到价值的「最后一公里」。

在数据层面, 可提供定制化的数据评估、视频编码、视频超分等数据服务, 助力客户应对高质量数据缺乏、数据处理难、存储空间大等难题。同时提供私有化部署和公有云服务两种灵活的服务模式, 可满足不同客户需求。

在训练层面, 可提供超大规模算力资源, 并能根据任务需求进行灵活调度, 且支持多芯混训、资源提效、性能优化, 实现极致的算力资源利用和模型训练效果提升。同时, 还通过智能异常检测、分钟级自动容错等多种手段组合, 为模型训练提供极致稳定性保障。

在推理层面, 可提供从负载均衡调度、弹性扩缩容到服务优化、模型压缩、算法优化的全方位、分层推理优化方案, 实现高吞吐、低时延的推理性能, 有效满足文生视频场景对推理的实时性要求。

同时, 作为全栈式解决方案的坚实后盾, 商汤大装置的全链条 AI 专家服务以全流程技术支撑和行业深度适配为核心, 全面覆盖业务场景洞察和定义、数据处理与构造、大模型评测与能力选型、模型微调、模型蒸馏, 再到模型部署与维护等 AI 模型开发和应用全生命周期环节, 助力企业高效实现 AI 应用落地, 在智能化转型之路上稳步迈进。

深化合作、共探场景升级, 推动文生视频持续爆发

得益于模型的快速迭代, 智象未来的商业化进程迅猛发展, 成立短短两年以来, 已累计服务 100 多个国家和地区的 1000 多万用户和 4 万多家企业, 智象大模型已广泛应用于影视、文旅、通信、营销、教育等场景。

未来, 商汤大装置与智象未来还将进行更深层次、更多维度的合作。除了算力层面, 双方还将针对视频筛选、视频编码、视频超分等数据处理, 以及模型推理优化等方面展开交流与合作探讨, 打造更优质、更高效、更易用的文生视频服务, 满足各行业客户日益增长的多样化需求。

商汤大装置与智象未来的合作实践, 为文生视频领域的众多创业公司提供了参考路径。对于创业公司而言, 与拥有大规模算力储备和文生视频全栈解决方案能力的 AI 云服务商合作, 是加速模型迭代、实现快速发展的更优路径, 能够有效规避自建算力所需的高额一次性投资、漫长的时间成本及专业团队投入难题, 从而在激烈的竞争中「轻装上阵」, 将更多精力聚焦于模型研发、产品运营及客户价值创造, 不断塑造自身核心竞争力。

商汤科技联合创始人、大装置事业群总裁杨帆讲到:「文生视频技术仍处于行业发展的初级阶段。随着技术路线不断演进、应用场景的不断爆发, 模型企业对于高质量的数据获取, 以及低成本、高弹性的算力服务需求将愈发强烈, 以支持模型训练和推理部署。面对这一趋势, 商汤大装置还将不断优化平台架构, 提升解决方案能力, 为文生视频领域提供更加全面、灵活、易用且更具性价比的智算方案, 助力文生视频技术在实际行业应用中发挥更大价值。」

来源:互联网

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。