
豆包在生活里扮演的角色越来越丰富了。
很多时候,面对那些跨越世纪的杰作,我们在美术馆或者博物馆里会陷入一种「独自面对伟大」的孤独感。
要想不虚此行,为了看懂文物,多数时间里我们都需要在服务台排队租借一台语音导览器,或者,不得不挤在人群后,费力地捕捉讲解员的声音。
这些设备和形式,某种程度上反而成了一道隐形的墙,将我们与艺术品、与同行的朋友隔绝开来。
如果获取艺术知识,能像给朋友打个视频电话一样简单呢?
1 月 20 日,在上海浦东美术馆,一种更自然的观展方式正在发生。
字节跳动旗下的豆包正式宣布成为「图案的奇迹:卢浮宫印度、伊朗与奥斯曼的艺术杰作」与「非常毕加索:保罗•史密斯的新视角」两大国际特展的官方 AI 讲解员。
没有租借设备的繁琐,也不必受限于固定路线。只需要掏出手机,打一通「视频电话」,那个懂艺术的朋友就「在」身边。
给 AI 装上「眼睛」
过去,我们大多已经习惯了「拍照—上传—等待」的识图模式来使用豆包,现在,豆包带来的「视频通话」功能已经变得非常流畅。
在展览现场,观众不再需要像扫描二维码一样对着展品反复调整拍摄角度。
打开豆包 App 的视频通话,摄像头捕捉到的连续画面,就是 AI 的实时视野。
这种交互的改变,源于豆包背后的 Seed 1.8 大模型,它在视频感知和流式理解上已经达到了 SOTA(行业顶尖)水平。
在 AI 行业试图解决多模态交互的当下,这一场景成为了检验模型能力的试炼场。它突破了传统计算机视觉的静态限制,解决了博物馆场景中几个极具挑战性的痛点:
第一是「相似物辨析」。在「图案的奇迹」展厅中,陈列着一件伊朗 15 世纪的《牡丹纹盘》。乍看之下,它与我们熟悉的明代永乐年间青花瓷几乎一模一样。
对于普通观众,甚至早期的视觉模型来说,极易混淆。但豆包能够像一位老练的鉴定师,通过视频流中的细节捕捉,精准识别出它独特的伊斯兰釉下彩陶工艺,并娓娓道来它与中国纹样的渊源与差异。
第二是「连续空间理解」与抗干扰能力。 观众的观展路径是移动的,视角是多变的。
观众可能会凑近看笔触,也可能会退后看构图,甚至手机画面会出现抖动和遮挡。现在,不管你是凑近还是退后,新的视频理解能力让豆包都能持续理解你眼前的场景变化,实现「即看即问、即问即答」。
这种「无感化」体验,让技术从一种干扰,变成了眼神的延伸。
拒绝「下定义」,平等对话
「我特别怕 AI 一上来就给我下定义,告诉我这幅画代表了什么,剥夺了我探索的乐趣。」资深媒体人陈鲁豫在现场道出了很多人的心声 。
传统的导览往往像是教科书式的单向输出,预设了观众的「无知」,急于填鸭标准答案。而通用大模型在面对专业领域时,又往往面临「一本正经胡说八道」的幻觉风险。
豆包此次的解决方案,展示了「通用大模型 + 独家垂直数据」的落地潜力。
通过与浦东美术馆及卢浮宫的独家数据合作,豆包掌握了大量互联网上搜索不到的小众展品信息,并试图建立一种平等的对话场。
字节跳动副总裁朱骏认为,AI 与人的交互本质上应该是一种对话,它不需要高高在上的「爹味」,而应通过启发式的提问,调动观众已有的感知。
在现场演示中,面对一把 17 世纪莫卧儿帝国的「马头柄匕首」,豆包并没有机械地背诵年份材质,当被问及「为什么这把刀能代表龙马精神」时,它敏锐地捕捉到了「龙马」这个中国文化意象,将其与波斯史诗中马作为英雄与王权的象征联系起来,甚至引用《周礼》中「马高八尺为龙」的典故,完成了一次跨文化的精彩对谈。
这种对话是流动的,也是千人千面的。
面对同一幅毕加索的《阅读》,如果观众关注技法,它会分析柔和曲线如何营造宁静氛围;如果观众带着孩子,它也能瞬间切换成「亲子模式」,用绘本般的语言讲述画中颜色的故事。
让解释权「普惠」
艺术圈常说,艺术是平等的,但「解释艺术的资源」长期以来极其稀缺。
优质的专家导览往往可遇不可求,大多数普通观众只能停留在「到此一游」的打卡层面,带走几张照片,却带不走对文化的理解。
从这个角度看,AI 讲解员的出现,本质上是一次「解释资源的普惠」。
此前,豆包已与中国国家博物馆、三星堆博物馆等七家国家一级博物馆达成合作。这种规模化的落地表明,AI 正在重塑公共文化服务的供给模式。
当讲解的门槛被技术拉平,原本晦涩的伊斯兰图案史或抽象的立体主义也变得触手可及。北京大学教授、艺术史学者朱青生指出,虽然人文精神和艺术的直觉感受永远属于人类,但 AI 可以在知识获取的层面极大地辅助我们,帮助我们从「打卡式看展」向「理解式看展」进阶。
豆包在浦东美术馆的尝试证明了,AI 可以是那个陪我们看展的同行者。当技术足够自然地隐入幕后,我们才得以更自由地看见艺术本身。



