
前两天我拿到了豆包的 Seedream4.0 的内测码。
给大家介绍一下,这是我家一位练习时长四年半的小狗:

我一直很喜欢这张照片,因为它充分展现了家里所有人对它的娇宠。
前两天我拿到了豆包的 Seedream4.0 的内测码。
操作流程很简单:「打开豆包 App 对话框→点击【AI 生图/生视频】→点击输入框→选择上传参考图→输入文字指令」。

很多人跟我说,这是中国的 Nano Banana,尤其在精准指令编辑方面,它经常表现得甚至更加出色。我刚好在整理旧手机的相册,准备以除旧迎新的积极态度迎接果年春晚(不一定真买),于是干脆把这张照片扔给了 Seedream4.0,并对它说:
「给它戴上好看的华丽的丰富的首饰。」
这个 prompt 是我瞎想的,细究起来甚至是有点语病的。我想起现在网上到处都是教人写,像小作文一样长的 Nano Banana 的 prompt,这样去折腾内测码,其实是有点惭愧的。
然后 Seedream4.0 给我生成了一张毫无违和感的图。

我立马就不困了,因为这个照片还原度实在是太高了。
最绝的是,这狗虽然全身是珠宝,但珠宝都不亮,所有的反光都很克制——可以说是完美地还原了北京老破小房间里的黯淡。
可不能就这么委屈了这满身的珠宝。于是我对 Seedream4.0 说,「将它置身于一个舞厅里。」

Seedream4.0 不仅选了一个跟珠宝配色很搭的场景环境色,连珠宝的饱和度和亮度也明显提高了,首饰的色泽跟随环境的变化明显更鲜艳了,毛发边缘的光线散射也发生了变化,仿佛它真的穿越到了那个舞厅里。
它的还原度如此之高,以至于 Seedream4.0 简直变成了一种赛博阿拉丁神灯。
养过狗的人大概都知道,狗狗的表情很丰富,而且有一个完整属于自己的世界。这件事情的副作用是,铲屎官抓拍的表情经常是悬浮于环境和场合的。但有了 Seedream4.0 的惊艳表现,我决定尝试给不同的小狗表情配上不同的场景。
操作步骤与第一张图的流程一样,先换一身衣服,再换背景。这样 prompt 的成功率很惊人,只要想好人物与场景的关系,几乎没有出现过因为特征扭曲而导致的废片。
背景替换不是一个今天才有的功能,但 Seedream4.0 让人惊艳的有两点:
第一,它兼具精准指令编辑能力与高度特征保持能力
你不希望它改变的地方,它都能完整保留下来。无论是照片里的水汽,还是毛发与皮肤的纹路,几乎都没有发生任何一眼可见的变化。
在图片中,你看不到任何 AI 油光水滑的油腻感,或者自动加噪引发的真实感,每一张图片都是自然的。
第二,在「第一」的基础上,它呈现了一定的世界观的能力
比如,在酒店当迎宾员的小狗,阳光角度近似但不同,在脖子上留下的阴影角度也随之有了细微的变化;叼着烟的牛仔,他的面部沟壑有轻微的加深;在航天飞船里,人的手臂也跟着小狗多出了一截太空服。
这些都不是简单的环境色渲染的结果,它们意味着模型已经有了很实打实的对现实理解能力,只是它很克制,但你仔细看就能发现它无处不在。
为了进一步探索模型对现实的理解和推理能力,我做了更多的尝试。
这是我从 unsplash 下载的一张图,图里是一块老式的俄制的老式指针式直流电流表。
我对 Seedream4.0 说,「将指针移动到右边。」
说实话我当时有点惊讶,它对「右」的理解很精准。在这张图里,「右」不是一个横向水平的正东的朝向,而是在 20 刻度线偏右一点的位置上,这与人们的日常经验是完全符合的。
我继续试验了一下文本推理能力,同样是 unsplash 上随机找到的一张训练图。
我告诉 Seedream4.0,将球衣数字换成「梅西在美国大联盟的球衣号码」。
Seedream4.0 自己确认了准确地球衣号码,找到了球衣数字,再替换了球衣数字,甚至连球衣上的纹理都做了还原。
我在图库里刚好看到一道被故意算错了的数学题。
于是我让 seedream4.0 将答案修改正确。
从以上图片编辑的效果来看,Seedream4.0 的文字编辑能力是很惊艳的。而在实测中,它甚至可以改变大段的文字。所以,你甚至可以在这个自然语言生成图像的工具里,直接通过自然语言修改字幕了。
甚至你可以让 Seedream4.0 尝试更高阶的玩法,让它直接翻译图片里的中文。它在翻译过程中,依然能保证画面和文字的质感是稳定不跳脱的,上下的字体也都维持了原来的样子。
只要你曾经用过 AI 生图工具,就会知道这件事情有多夸张。在此之前,只有 nano banana 算做到了这件事情。
测到这里,我想所有人脑子里都会自然而然地跳出,「这不就是中国的 nano banana」。
所以我决定直接测一些 nano banana 的热门 demo。
比如,将之前的狗狗照片生成「手办」图。
还有许多人关注的 OOTD(今日穿搭),我想在你们看到这篇测评的时候,OOTD 已经被不少同行给玩透了。所以我结合这次的图片修复功能,为 OOTD 功能整一些不一样的花活。
首先,我们请出学神爱因斯坦老师。这是它一张不多见的全身照。

然后我们告诉 Seedream 将它修复。

我从巴黎世家的官网找到了衣服、裤子和鞋子,于是有了一个跨越时空的穿搭。

可以看到 Seedream4.0 对整体产品的还原度都是在线的,裤子的做旧细节和鞋子的纹路都实现了还原。
(不过 Seedream 对合规的审核很严格,名人穿搭不太容易过审,经常会被 ban,大家可以谨慎尝试)
在文字直接生成图片方面,Nano Banana 官方前段时间曾开放了六个示例,涉及到了不同的能力侧面。我想,谷歌方面试图从这六个示例,以完整呈现其在不同场景的生图能力。而且为了辅助用户上手,Nano Banana 还贴心地给了 prompt 提示词和对应的生图节奏。
对于一家 AI 媒体来说,或许很难找到比这六个示例更能直观展现 Seedream4.0 和 Nano Banana 的能力与风格对比了。
因此我将这六个示例的 prompt 都导入了内容,左边是 Nano Banana,右边是 Seedream4.0。Seedream 4.0 有时会生成多张图,考虑到 Nano Banana 提供的是官方示例,我也会选择多张图中自认为最好的那一张。如果生成水平差不多,我就默认选择第一张。
示例一
A photorealistic close-up portrait of an elderly Japanese ceramicist with deep, sun-etched wrinkles and a warm, knowing smile. He is carefully inspecting a freshly glazed tea bowl. The setting is his rustic, sun-drenched workshop. The scene is illuminated by soft, golden hour light streaming through a window, highlighting the fine texture of the clay. Captured with an 85mm portrait lens, resulting in a soft, blurred background (bokeh). The overall mood is serene and masterful. Vertical portrait orientation. 一幅逼真的特写肖像,描绘了一位年长的日本陶艺家。他脸上布满深深的、被阳光刻蚀的皱纹,露出温暖而洞悉一切的笑容。他正仔细端详一只刚上釉的茶碗。场景设定在他那间质朴、阳光充足的工作室里。柔和的黄金时刻光线透过窗户洒入,照亮了陶土细腻的纹理。作品由 85 毫米人像镜头拍摄,背景呈现柔和的虚化效果(焦外成像)。整体氛围宁静而尽显大师风范。肖像采用竖版构图。(豆包翻译)

相比于 Nano Banana,Seedream4.0 对「85 毫米人像镜头」的把控更好,镜头虚化效果的还原度更高,面部沟壑更自然。在前文提及的世界观方面,Seedream4.0 的阳光感更好,一看就是夕阳「黄金时刻」的阳光,在房间里光漫射效果也很到位。
总体来说,Nano Banana 的 AI 感更强,属于一眼 AI 图;但 Seedream4.0 乍一眼,真的会以为是一张照片。
不过豆包似乎对「 freshly glazed 」的理解不太一样,因此陶瓷的釉面没有上完。因此,这个示例算平手。
示例二
A kawaii-style sticker of a happy red panda wearing a tiny bamboo hat. It's munching on a green bamboo leaf. The design features bold, clean outlines, simple cel-shading, and a vibrant color palette. The background must be white. 一张可爱风格的贴纸,上面是一只开心的小熊猫,它戴着一顶小小的竹帽,正在啃一片绿色的竹叶。设计采用鲜明清晰的轮廓、简单的赛璐珞 shading 技法和鲜艳的色彩搭配。背景必须是白色的。(豆包翻译)

都很可爱,个人喜欢 banana 的风格,但 Seedream4.0 似乎更符合 prompt 里「vibrant color palette」的设定。
示例三
Create a modern, minimalist logo for a coffee shop called 'The Daily Grind'. The text should be in a clean, bold, sans-serif font. The design should feature a simple, stylized icon of a coffee bean seamlessly integrated with the text. The color scheme is black and white. 为一家名为「The Daily Grind」 的咖啡店设计一个现代简约风格的标志。文字部分采用简洁、粗体的无衬线字体。设计中需包含一个简约的、风格化的咖啡豆图标,与文字无缝融合。配色方案为黑白两色。(豆包翻译)

Seedream 的设计很不错,但 banana 更有巧思,banana 胜。
示例四
A high-resolution, studio-lit product photograph of a minimalist ceramic coffee mug in matte black, presented on a polished concrete surface. The lighting is a three-point softbox setup designed to create soft, diffused highlights and eliminate harsh shadows. The camera angle is a slightly elevated 45-degree shot to showcase its clean lines. Ultra-realistic, with sharp focus on the steam rising from the coffee. Square image. 一张高分辨率的工作室灯光产品照,主体是一只哑光黑色的简约陶瓷咖啡杯,放置在抛光混凝土表面上。灯光采用三点柔光箱设置,旨在营造柔和、漫射的高光,消除生硬的阴影。拍摄角度为稍高的 45 度角,以展现杯子流畅的线条。画面超写实,清晰聚焦于咖啡升起的热气。
这个提示词的难度有点高,Seedream 没有理解三点柔光箱设置。所以我重新强调了,不要让光源出现在图片里。

双方都是高度写实场景。但 seedream4.0 都符合了 prompt 的要求,角度抬高了 45°,只是光源最后也没有处理好。这一题就先放过。
示例五
A minimalist composition featuring a single, delicate red maple leaf positioned in the bottom-right of the frame. The background is a vast, empty off-white canvas, creating significant negative space for text. Soft, diffused lighting from the top left. Square image. 一幅极简构图的作品,一片纤薄的红色枫叶置于画面右下角。背景是一片开阔空旷的米白色画布,形成大片可供添加文字的留白。光线从左上角柔和漫射而来。图片为正方形构图。(豆包翻译)

这张照片我仔细看了原图,banana 的官图白色画布也没有出现「Soft, diffused lighting from the top left.」,在图中,光线唯一的表现方式其实只有树叶的阴影。
示例六
A single comic book panel in a gritty, noir art style with high-contrast black and white inks. In the foreground, a detective in a trench coat stands under a flickering streetlamp, rain soaking his shoulders. In the background, the neon sign of a desolate bar reflects in a puddle. A caption box at the top reads "The city was a tough place to keep secrets." The lighting is harsh, creating a dramatic, somber mood. Landscape. 一幅漫画单格,采用粗犷的黑色电影艺术风格,以高对比度的黑白墨水绘制。前景中,一名穿风衣的侦探站在一盏闪烁的街灯下,雨水浸湿了他的肩头。背景里,一家荒凉酒吧的霓虹灯招牌倒映在水洼中。顶部的说明框写着:「这座城市藏不住秘密。」 光线强烈,营造出戏剧化的阴郁氛围。画面为横版构图。(豆包翻译)

虽然在谷歌官方的 prompt 提示词示例里,的确是有「lanscape」和「荒凉酒吧倒影在水中」的要求,但示例却没有出现。而且 Banana 的光源也远谈不上漫画中「harsh」的要求。
Banana 的构图更幽深,有艺术气息,像电影的海报;但 Seedream 对 prompt 的还原度更高,像电影里一段剧情开始的第一帧。
整体来看,nano banana 和 Seedream4.0 的效果各有千秋。
Nano banana 像一个很有自己头脑的艺术生,它似乎会选择性地忘记一些指令,来达成一个在它看来可能更美的构图。但 Seedream4.0 则会认认真真完成 prompt 里的所有指令,完成度明显更好。
而且这还是在英文语境下,豆包的语义理解有可能会吃亏的情况下完成的。更不用说,以上都是谷歌的官图,而我只是拿内测版自己跑的图。
在审美方面,Seedream4.0 的成像效果明显更加真实,有时甚至能达到让人愣一下神,怀疑这究竟是不是 AI 生成的程度。而 Nano banana 的性能虽然强大,但依然有一种 AI 式的精致感,仿佛画面抹上了一层 AI 的亮油。
结语
很多人将 nano banana 称之为生图界的 ChatGPT3.5 时刻。
因为过去模型只能生成一些天马行空的东西,但由于缺乏一致性,很难凝聚成有效的生产力。用户花费大量的 token,才能撞出几张有用的,最后生成一堆废图,费电费算力。
但 Seedream4.0 和 nano banana 这样生图模型,做到了精准指令编辑、高度特征保持和深度意图理解,不仅大大降低了普通用户使用的门槛,也会极大提升创意人士的使用效率。
你可能也看出来了:相比于生成,我在使用 Seedream4.0 最快乐的时候永远是改图。
因为让用户在照片上进行修改,其实永远更符合人类对空间和视觉的直觉的。
比如,我们想象一个阿拉丁神灯、一个无所谓不能的魔法师,它可以在这个世界里变出任何怪诞惊奇的玩意儿。但我们感受到「惊奇」的前提,首先是我们脚下的世界或者我们眼前的人是稳定的。有了一个注意力的锚点,再去添加和改变新的元素,这才会有魔术师的视觉效果。
因此,在生图领域,Seedream4.0 和 nano banana 绝对是划时代的产品,肯定会引发创意行业的新革命。
而且人与 AI 的关系也不再是博弈,而是合作。人的创意落地门槛会更低,一个好的想法、一个转瞬即逝记录下来的细节,都可以被 AI 放大成一个作品。
这里唯一的区别是,从 GPT3.5 出现,到 DeepSeek V3,我们花了两年时间。但从 nano banana 正式发布,到 Seedream4.0 上线,总计只有 20 天。
而且如前文所述,从许多体验和生图效果上,Seedream4.0 的体验其实比 nano banana 还要完美。
比如,在交互上,Seedream4.0 表现得更加用户友好。
这次官方内测的平台是豆包。有时用户输入一些非常简单的 prompt 时,豆包会主动帮助补齐一些要求,比如「保持某某其他元素保持不变」、「保持原比例」;如果你故意输入一些倒装句,豆包也会在生图时将句子改成规范的表达;如果你用模糊指向的词语描述 prompt,豆包也会在转述时使用更加准确的表达。
所以在拿豆包与 Seedream4.0 交互时,会时刻感觉到有一个小助手在边上,帮你优化向模型传达的指令。用户不用有任何的「prompt 羞耻症」,担心自己的 prompt 不够好,而导致效果不好——可以说是非常「vibe」了。
此外,Seedream4.0 在画面生成的语言遵从能力也更强,也展现了惊人的世界理解与预测能力。
它不会放过一段冗长 prompt 中的任何一个内容,光线变化一定带来画面漫反射与影子的变化,有倒影就一定会出现倒影,提出了光线的方向就一定会呈现。
当 AI 真的可以 See Dream 了,人与梦也就更近了。
如果 Dream 是人人都有的,那么人人也都可以成为创意者。
来源:互联网



