生成式 AI 赛道竞争升级，美图奇想大模型推动技术创新

自生成式 AI 故事兴起以来, 竞争是行业绕不开的话题, 目前 AI 图像领域迎来新一轮全球竞速。10 月 22 日,Stable Diffusion 3.5 模型发布, 图像生成更真实, 性能提升, 并专注于多样化输出和易用性。Midjourney 的创始人 David Holz 日前宣布, 一款全新的图像编辑器将在 10 月下旬上线。

10 月 24 日, 美图公司宣布旗下美图奇想大模型 (MiracleVision) 图像生成能力再度升级, 综合实力得到进一步完善, 并上线一站式 AI 短片创作工具 MOKI, 后续将逐步覆盖美图旗下产品生态, 为用户带来全新的视觉体验。

这是美图奇想大模型一个月来的第二次升级。9 月 23 日, 美图奇想大模型率先进行了视频生成能力的升级, 单次文生视频时长、单次图生视频时长均达 5 秒, 可支持 1 分钟, 帧率 24FPS, 分辨率 1080P 的超长视频生成。

值得一提的是, 本次美图奇想大模型的图像生成能力升级, 特别提取了中国文化元素进行针对性调优, 实现了对东方语义乃至中西融合语义的精准理解与内容表达, 并为用户带来极富东方韵味的视觉风格。

美图奇想大模型团队表示, 本次图像生成能力的升级, 依托美图奇想大模型强大的语义理解与文本扩写能力, 实现精准画面表达与兼具故事感的氛围呈现。升级过程深度结合了美图公司在影像、美学、艺术等领域的长期积累, 将多元美学理念融入模型训练过程, 生成质感更加细腻自然, 能呈现从轮廓、光影到构图的全方位电影级画面。

同时, 升级后的美图奇想大模型支持超短文本到超长文本的内容输入, 能精准理解多元风格与复杂场景, 展现想象力爆棚的创意画面。

事实上,2022 年至 2024 年, 文生图的技术以肉眼可见的速度迭代进化。Midjourney 平均 3 个月一个版本, 一路从 V1 迭代到了 V6。美图奇想大模型也完成了从 V1 到 V5 的进化。2024 年 8 月, 由 Stable Diffusion 核心人员打造的开源文生图模型 FLUX 爆火, 以出色的生成质量迅速成为文生图领域的「开源王者」。文生图技术的进化速度, 像一把节奏紧凑的小锤, 不停提醒所有 AI 图像工具的公司们, 留给他们成长的时间, 不多了。

短短两年时间内, 文生图模型垂直赛道就已经发生了巨变:2022 年 8 月,Stable Diffusion 母公司 Stability AI 以三个月用户量增长 1000 万称霸市场;到后来,Midjourney 通过产品迭代, 在相当长时间内流量高居行业第一。而在国内市场, 以字节、美图为代表的互联网科技公司也持续迈出创新的步伐。

大模型行业分析师表示, 在非通用的 AI 细分赛道里, 产品的竞争更加激烈并趋于白热化。与通用型 AI 个人助理不同, 从长远看,AI 图像工具的用户工具导向更强, 更加强调操作简易性和出图质量, 而非体验性、趣味性和新鲜感。

人工智能领域研究员表示, 以 Stability AI、Midjourney、美图为代表的企业在文生图领域产品竞争、迭代的背后, 是愈发精细化、差异化的用户需求。从模型生成到成图质量到精细化的定制需求, 更加强调性能和使用体验。美图奇想大模型全新升级的图像生成能力, 支持超短文本到超长文本的提示遵循, 能够精准理解多元风格与复杂场景, 体现了 2024 年 AI 赛道更加细分、从模型建设涌入 C 端应用开发的总体趋势。同时, 从用户角度不断优化性能打造精细化、差异化的产品体验才是 AI 公司最后的护城河。

来源：互联网

最新文章