豆包「入职」浦东美术馆，当 AI 成为你的「看展搭子」

很多时候，面对那些跨越世纪的杰作，我们在美术馆或者博物馆里会陷入一种「独自面对伟大」的孤独感。

要想不虚此行，为了看懂文物，多数时间里我们都需要在服务台排队租借一台语音导览器，或者，不得不挤在人群后，费力地捕捉讲解员的声音。

这些设备和形式，某种程度上反而成了一道隐形的墙，将我们与艺术品、与同行的朋友隔绝开来。

如果获取艺术知识，能像给朋友打个视频电话一样简单呢？

1 月 20 日，在上海浦东美术馆，一种更自然的观展方式正在发生。

字节跳动旗下的豆包正式宣布成为「图案的奇迹：卢浮宫印度、伊朗与奥斯曼的艺术杰作」与「非常毕加索：保罗•史密斯的新视角」两大国际特展的官方 AI 讲解员。

没有租借设备的繁琐，也不必受限于固定路线。只需要掏出手机，打一通「视频电话」，那个懂艺术的朋友就「在」身边。

给 AI 装上「眼睛」

过去，我们大多已经习惯了「拍照—上传—等待」的识图模式来使用豆包，现在，豆包带来的「视频通话」功能已经变得非常流畅。

在展览现场，观众不再需要像扫描二维码一样对着展品反复调整拍摄角度。

打开豆包 App 的视频通话，摄像头捕捉到的连续画面，就是 AI 的实时视野。

这种交互的改变，源于豆包背后的 Seed 1.8 大模型，它在视频感知和流式理解上已经达到了 SOTA（行业顶尖）水平。

在 AI 行业试图解决多模态交互的当下，这一场景成为了检验模型能力的试炼场。它突破了传统计算机视觉的静态限制，解决了博物馆场景中几个极具挑战性的痛点：

第一是「相似物辨析」。在「图案的奇迹」展厅中，陈列着一件伊朗 15 世纪的《牡丹纹盘》。乍看之下，它与我们熟悉的明代永乐年间青花瓷几乎一模一样。

对于普通观众，甚至早期的视觉模型来说，极易混淆。但豆包能够像一位老练的鉴定师，通过视频流中的细节捕捉，精准识别出它独特的伊斯兰釉下彩陶工艺，并娓娓道来它与中国纹样的渊源与差异。

第二是「连续空间理解」与抗干扰能力。 观众的观展路径是移动的，视角是多变的。

观众可能会凑近看笔触，也可能会退后看构图，甚至手机画面会出现抖动和遮挡。现在，不管你是凑近还是退后，新的视频理解能力让豆包都能持续理解你眼前的场景变化，实现「即看即问、即问即答」。

这种「无感化」体验，让技术从一种干扰，变成了眼神的延伸。

拒绝「下定义」，平等对话

「我特别怕 AI 一上来就给我下定义，告诉我这幅画代表了什么，剥夺了我探索的乐趣。」资深媒体人陈鲁豫在现场道出了很多人的心声。

传统的导览往往像是教科书式的单向输出，预设了观众的「无知」，急于填鸭标准答案。而通用大模型在面对专业领域时，又往往面临「一本正经胡说八道」的幻觉风险。

豆包此次的解决方案，展示了「通用大模型 + 独家垂直数据」的落地潜力。

通过与浦东美术馆及卢浮宫的独家数据合作，豆包掌握了大量互联网上搜索不到的小众展品信息，并试图建立一种平等的对话场。

字节跳动副总裁朱骏认为，AI 与人的交互本质上应该是一种对话，它不需要高高在上的「爹味」，而应通过启发式的提问，调动观众已有的感知。

在现场演示中，面对一把 17 世纪莫卧儿帝国的「马头柄匕首」，豆包并没有机械地背诵年份材质，当被问及「为什么这把刀能代表龙马精神」时，它敏锐地捕捉到了「龙马」这个中国文化意象，将其与波斯史诗中马作为英雄与王权的象征联系起来，甚至引用《周礼》中「马高八尺为龙」的典故，完成了一次跨文化的精彩对谈。

这种对话是流动的，也是千人千面的。

面对同一幅毕加索的《阅读》，如果观众关注技法，它会分析柔和曲线如何营造宁静氛围；如果观众带着孩子，它也能瞬间切换成「亲子模式」，用绘本般的语言讲述画中颜色的故事。

让解释权「普惠」

艺术圈常说，艺术是平等的，但「解释艺术的资源」长期以来极其稀缺。

优质的专家导览往往可遇不可求，大多数普通观众只能停留在「到此一游」的打卡层面，带走几张照片，却带不走对文化的理解。

从这个角度看，AI 讲解员的出现，本质上是一次「解释资源的普惠」。

此前，豆包已与中国国家博物馆、三星堆博物馆等七家国家一级博物馆达成合作。这种规模化的落地表明，AI 正在重塑公共文化服务的供给模式。

当讲解的门槛被技术拉平，原本晦涩的伊斯兰图案史或抽象的立体主义也变得触手可及。北京大学教授、艺术史学者朱青生指出，虽然人文精神和艺术的直觉感受永远属于人类，但 AI 可以在知识获取的层面极大地辅助我们，帮助我们从「打卡式看展」向「理解式看展」进阶。

豆包在浦东美术馆的尝试证明了，AI 可以是那个陪我们看展的同行者。当技术足够自然地隐入幕后，我们才得以更自由地看见艺术本身。