整理｜Moonshot

编辑｜靖宇

人类获取的 90% 信息来自视觉。当 AI 成为人类的随身智能设备时，视觉同样是最关键的部分。AI 如何帮助我们从「看到」，走向「看清」整个世界？

大模型已不再满足于被困在服务器的机箱里，它们渴望「身体」，渴望感官，渴望新的增量数据。

于是，过去看似沉寂的 AR／XR 行业也在 AI 的推动下重新升温：从头戴式设备，到轻量化眼镜，再到多模态感知硬件，各类厂商都看到了「下一个 iPhone」般的机会。

其中，最被看好的赛道就是眼镜，35g 级别的轻量化 AI 眼镜被视为未来十年的主流形态。

图源：极客公园

过去几年，AI 眼镜从概念走向产品，从工程样机变成轻量化可佩戴设备，Meta Ray-Ban 的走红验证了「AI+眼镜」的潜力，它们开始成为 AI 的视觉入口、听觉入口、长期记忆的生成器。

但现实与愿景之间仍隔着坚硬的技术鸿沟。显示、续航、重量、计算、散热，每一个都是牵引整个行业多年的「物理难题」。而且没有任何一台设备能同时做到轻量化全天候佩戴、高清显示、强大算力，这是智能眼镜行业的「不可能三角」。

在徐驰看来，当下就像 20 年前，那个智能手机爆发前夜、充满碎片化与混沌的时刻，市场上虽有百万级爆款，但生态割裂，缺乏统一的交互标准。

在极客公园创新大会 2026 上，XREAL 创始人兼 CEO 徐驰试图回答一个时代级的问题：我们应该如何为 AI 赋予视觉「身体」？又是什么设备，可以真正点亮属于 AI 时代的 iPhone 时刻？以下是徐驰的演讲实录，由极客公园整理。

嘉宾精彩观点：

• 下一代人机交互的终极形态，应当是「无感交互」。

• 眼镜作为距离人眼最近的设备，是天然适合成为下一个终端的载体。

• 今天的 AI 似乎缺乏触觉，也缺乏视觉，仿佛被困在了计算机的服务器里。

• 当你不断赋予 AI 对 3D 真实世界的感知能力时，它的能力也会随之显著提升。

• Agent 不应仅仅是软件，更应该是一个「硬件化的 Agent」。

• 眼镜所带来的「增量数据」，很可能是 AI 通向 AGI 的必经之路。

• 今天的 AI 眼镜仍然面临着「不可能三角」的挑战：全天候舒适佩戴、极佳的显示效果以及强大的 AI 智能化。

• 如果 AI 终端的竞争是一场万米长跑，那么向下深耕、打好基础，跑对方向比今天的抢跑更重要。

• 我们经常会陷入一个误区，试图用一种单一的产品形态去想象未来。

极客公园的朋友们，大家下午好，我是徐驰。

今天，我不打算聊某一款具体的产品，而是想和大家探讨一个话题：如果 AI 需要一个实体，下一代的它应该长什么样？

在进入正题之前，先简要介绍一下目前元宇宙的 AR 体验现状，也是我们 XREAL 团队过去十年在这个行业耕耘的成果。

我们一直致力于无缝连接数字世界与真实世界。在这个过程中，我们见证了行业的起伏，也深知其中的艰难，而近年来 AI 的异军突起，让我们惊喜地发现，XREAL 所做的事业正与 AI 发生快速的融合。

图源：极客公园

简单回顾我的经历，我在国内完成学业，随后在国外的几家科技大厂工作，有幸亲眼见证了 AI 行业与 XREAL 所处的 XR 领域最前沿的发展图景。

01

无感与「五感」

随着近年来 AI 能力的飞速跃升，我们发现，过去想象中的交互方式：从手机上的「触控屏幕」，到我们在 XREAL 头显、眼镜中设想的手势及多模态操作，其实都算不上最自然的交互。相比之下，人与人之间的交流才是最自然的。

因此，我们认为下一代人机交互的终极形态，应当是「无感交互」。就像人与人之间若能心有灵犀，你便能「想我之所想，见我之所见」，最终无需多言，就能懂得我真正想要什么。

在这场轰轰烈烈的 AI 革命中，我们意识到，AI 需要一双「眼睛」。在终端设备更迭的过程中，我们的目标是希望在未来二十年里，让大家能够从屏幕中抬起头来。回顾过去的变革，我们的注意力始终被禁锢在面前的屏幕上；而眼镜，作为距离人眼最近的设备，是天然适合成为下一个终端的载体。

图源：极客公园

同时，AI 的能力不断惊艳着我们，每一代模型都有着更强的推理能力，甚至具备了更强的多 Agent 处理能力。

但今天的 AI 似乎缺乏触觉，也缺乏视觉，仿佛被困在了计算机的服务器里。它就像一位饱读诗书、通晓人类千年文明精华的智者，却始终无法睁开眼睛看世界。我们相信，眼镜将是 AI 在下一阶段最好的载体，我们要赋予它全新的视觉能力。

在谷歌的 IO 大会上，他们提出了未来 AI 的发展目标：在变得越来越强大的同时，也要越来越个性化、越来越主动化。要实现这两点，前提是 AI 需要了解你的历史，需要拥有你生活中的上下文。

特别是随着 Gemini 3 等新技术的登场，我们将会迎来更多惊喜。随着大模型从单纯的语言模型走向多模态模型，我们发现，当你不断赋予 AI 对 3D 真实世界的感知能力时，它的能力也会随之显著提升。

但我始终认为，手机绝不是 AI 天然的最佳载体。我很喜欢一部大约十年前的电影《Her》，讲述了男主角与 AI 产生情感羁绊的故事。其中有一个桥段让我印象深刻：AI 角色 Samantha 对男主角说，「我想看看你的世界」，于是男主角用别针将手机摄像头固定在衬衫口袋上，以此让它看见外部世界。

今天我们所做的，就是打造一个「更好的手机」、一枚「更好的别针」，让 AI 能够真正伴随我们，更好地理解我们的生活。

《Her》电影男主角用摄像头帮虚拟女友「看世界」｜图源：Netflix

此外，在 AI 的基础上，我们衍生出了越来越多的 Agent。这些 Agent 能够更好地理解你的诉求，帮你完成一系列复杂的任务。

以前我们提到的 Agent 大多运行在手机或电脑上，属于软件形态。而今天，我们提出了一个全新的概念： Agent 不应仅仅是软件，更应该是一个「硬件化的 Agent」，这样才能最大范围地释放 AI 的能力。

这将对我们今天的硬件结构带来全新的定义。让我们重新审视「摄像头」，它不再仅仅是用来拍照或录像的工具，在全天候 AI 眼镜上，它将成为 AI 理解世界的眼睛；「麦克风」也不再只是录音功能，而是变成了 AI 的耳朵，能更好地感知周围声音的信息量。视觉与听觉的结合，已经覆盖了我们获取信息的 99%。

在交互层面，我们也希望引入新的概念。未来的显示界面，很可能变得像人与人交流时的面部表情一样，能够更好地与大家进行 AI 互动。最终，我们希望通过端侧算力与云端能力的结合，构建出如同人类神经系统般的架构——既能加速处理，又能通过端侧机制很好地保护隐私。

综合这些因素，未来的 Agent 将不再是一个单纯的软件概念，而是硬件与软件的深度结合。它将附着在一个完美的载体上，为大家提供全天候的多模态 AI 体验。

同时我们坚信，眼镜所带来的「增量数据」，很可能是 AI 通向 AGI 的必经之路。

02

增量数据才能让 AI to AGI

观察今天的数据现状，我们主要利用存量数据来训练大模型。公域数据构成了大模型的基础语料库。

在不同的大公司内部，还有私域数据，例如谷歌拥有你的文档、Gmail 等信息，能让办公相关的背景信息更加充实；国内像小红书这样的平台，也涵盖了非常有价值的私域数据。

但我想表达的是，现有的无论是公域还是私域的存量数据，都已接近枯竭。如果我们想把 AI 带入下一阶段，让它变得更个性化、更主动、更强大，我们需要的是「增量数据」。

徐驰认为，AI 眼镜或将成为「最后一块」屏幕式硬件｜图源：极客公园

未来，我们看到两个巨大的增量数据来源：一个是眼镜，一个是机器人。在具身智能机器人大规模普及之前，我们相信，戴在眼前的眼镜将是为 AI 提供更多个性化增量数据的最佳入口和途径。

虽然想象很美好，但现实中这个行业依然面临着重重挑战。我们有许多困难需要克服，尤其是无法突破的一些物理规律。

今天的 AI 眼镜仍然面临着「不可能三角」的挑战：全天候舒适佩戴、极佳的显示效果以及强大的 AI 智能化。目前没有任何一款设备能同时完美解决这三点，能解决其中两点就已经非常出色了。

回顾这个行业十年的起伏，新一波浪潮因 AI 的赋能而呈现出产品井喷的状态。我们看到一个明显的变化：早期产品形态以头盔为主，但在 2024、2025 年之后，轻量化眼镜将逐渐成为主流。这也是整个 XR 行业从小众市场走向大众普及的必然阶段。

从另一个角度来看时机。在该领域投入最大的巨头 Meta，依然在持续加大投入，却尚未迎来明显的拐点。这可能是 XREAL 的投资人最不愿看到的一张图，让人感觉似乎遥遥无期。

前景如此美好，现实却如此艰难，到底是什么制约了眼镜的发展？让我们回看到二十年前。

03

AI 眼镜的终极形态

现在的眼镜行业特别像 2005、2006 年智能手机的前夜。在苹果 iPhone 出现之前，手机生态呈现出全面的碎片化。虽然当时很多设备销量很高，不乏百万级爆款，但对开发者而言，为这些不同形态的设备做适配简直是噩梦，交互方式在不同平台间的迁移成本极高。

如果我们相信 XR 行业会像手机一样成为通用的计算终端平台，那么我们就必须有能力将这样的生态逐渐统一起来。

我们常说，如果 AI 终端的竞争是一场万米长跑，那么向下深耕、打好基础，跑对方向比今天的抢跑更重要。

展望十年之后，我们经常会陷入一个误区，试图用一种单一的产品形态去想象未来。就像我戴眼镜一样，我希望未来的智能眼镜能像今天的近视镜一样轻巧。但很可惜，正如我们曾想把手机的功能全部塞进手表里一样，这涉及到无法逾越的物理客观规律。

图源：极客公园

因此，我们认为即便在十年甚至更远的未来，智能眼镜很可能会存在「二元化」的产品形态：

第一种形态，主打「全天候」。

十年后，这种眼镜可能做到 35 克以下，与现在的近视眼镜无异。它能真正实现全天候佩戴，AI 将「住」在你的眼镜里，24 小时伴随你，或者至少在你醒着的时候一直陪伴。

它需要极强的多模态 AI 能力。但受限于物理规律，这种轻量化眼镜有一个致命问题：它的显示效果做到极致，可能也只能达到今天汽车 HUD 的水平，非常透明、无感，但无法用来观看高清电影，注定只能承载一部分功能。

第二种形态，则以更好的显示效果为基准。

它虽然也能全天候携带，但未必是全天候佩戴。它更像是一副「近视眼镜 + 墨镜」的组合，用户根据不同场景选择不同的设备。它有机会承载更丰富的生态内容。我们相信最终它的重量会比今天轻巧很多，大约做到 50 到 60 克。

既然我们预想了这样的形态，为什么海外巨头在今天明显不如当年 iPhone 时代那样「给力」了？这些巨头投入了巨额研发资金，拥有全球最优秀的工程师，却依然没有拿出像当年 iPhone、特斯拉、大疆那样让人惊艳的产品。

这背后反映了一个趋势：过去二十年，我们见证了美国及西方许多科技公司硬件创新的全面「空心化」。我们深刻体会到，变革正在发生，「定义」往往源于美国，但不仅仅是制造，越来越多的「创造」正在向中国靠拢。

图源：极客公园

那么，「iPhone 时刻」何时到来？今天距离那个时刻还差什么？我认为有四个关键挑战需要解决：

第一是硬件微型化。回顾所有大厂的第一代产品形态，包括苹果 2024 年推出的 Apple Vision Pro，大家都能看到，厂商都希望做一个「大而全」的产品。但他们忽略了一点：只有微型化，才能让产品进一步向大众普及。

XREAL 在这方面做得最好的一点，就是从第一天起就坚信「只有小型化才有机会」。我们将所有研发力量都投入到如何实现小型化上，包括在芯片、显示和制造工艺上的突破，这让我们在相关领域取得了代际领先。

第二是多模态 AI 。我们需要真正赋予 AI 一个 3D 化的世界模型。在这方面，越来越多的模型从 LLM 迁移到了 LMM，AI 能够陪我们打游戏、看视频，并通过上下文快速理解复杂的多模态信息。

第三是生态统一。大家记得 iPhone 问世后发生了什么吗？它彻底统一了交互方式，随后 iOS 和安卓两大生态彻底统一了开发者的接口，这直接导致了内容赛道的井喷式增长。

第四，也是更重要的一点，是如何让 AI 真正实现个性化。在 AI 基础之上，我们需要让 AI 拥有「长期记忆」。这是什么概念？比如今天我见到一个人，AI 会帮我回忆过去三年我们在哪些场合见过、交流过什么核心信息、他对我有过什么意见、还有什么重要事务需要处理。这与我们大脑的结构是一样的。目前的 AI 记忆大多是基于长文本输入的短期记忆，我们相信在两到三年内，基于 AI 大模型的长期记忆会有所突破。

如果攻克了这四点，我们相信一个真正具备「iPhone 时刻」意义的产品将会问世。这一突破预计在未来两到三年内发生，届时大家将看到像初代 iPhone 一样令人惊艳、值得期待的全新全天候 AI 智能眼镜。

我们希望这个时间点是 2027 年，如果真是 2027 年，那恰好是 20 年的轮回：从 2007 年初代 iPhone 到 2027 年。

04

下一个 iPhone 的风口，由谁引领？

到底谁能引爆这场革命？过去我们希望像苹果、特斯拉这样的公司能帮我们定义好产品，其他人直接「效仿」。但在今天的时代，基于我们观察到的趋势，很可能没有一家公司能包揽一切，我们更有可能看到的是一个「全球联盟」。

举个简单的例子，在今年的谷歌 I/O 大会上，我们与谷歌联合发布了关于 Project Astra 的轻量化眼镜探索。这让我们第一次有了当年 iPhone 问世时的感觉。

我们发现所有的要素都开始成熟了：硬件形态足够轻巧，体验足够好，拥有足够开放的第三方内容生态，让开发者能快速移植或开发全新内容。

最重要的是用户交互。苹果在 iPhone 上引入了多点触控，统一了智能手机最重要的交互点；今天，我们认为 AI 将是 XR 最好的交互方式。就像电影《Her》里那样，我们通过让 AI 住进眼镜里，以无感的方式结合 AI 实现全新的交互。

图源：极客公园

大家可以设想一下，拥有了海量现有的安卓生态内容，结合焕然一新的 AI 交互，再加上轻量化的产品体验，我们可以期待安卓 XR 在未来几年给大家带来的变革。同时，这也是第一个原生的 AI 操作系统。我们相信，在巨头的争夺下，中国公司也有机会通过联盟的方式，参与到全球产品的定义和竞争中去。

虽然今天 AI 的「大脑」是在大洋彼岸被创造和定义的，但我们相信，承载它的「眼镜」将越来越多地在中国诞生，中国今天是全球硬件制造业创新的核心基地。

同样，我们也相信眼镜可能是我们在座各位有生之年遇到的「最后一块屏」的机会。我们希望这块人类所需的「最后之屏」，能由我们这一代人亲眼见证，甚至有机会去参与、引领和定义。

虽然我不认为目前的成果已经达到了初代 iPhone 那般惊艳的程度，但这可能是我们和谷歌一起，在过去两年联合打造的、现阶段最好的「版本答案」。

我们希望能给大家带来惊喜，让大家看到未来几年这个行业将会涌现出怎样不同的产品形态和体验。

谢谢大家。

XREAL 徐驰：智能眼镜，拉开了「Agent as Hardware」的新时代

01

02

03

04

最新文章