天工智能联席 CEO 兼昆仑万维 2050 全球研究院院长颜水成受邀在 ICIP 2023 发表演讲

摘要

2023 年 10 月,全球图像处理顶级盛会 2023 IEEE International Conference on Image Processing(IEEE ICIP 2023) 在吉隆坡举行。在 ICIP 2023 上,天工智能联席 CEO 兼昆仑万维 2050 全球研究院院长颜水成受邀进行了主题为《Foundations of Foundation Models》的 Industry Keynote 演讲。

2023 年 10 月,全球图像处理顶级盛会 2023 IEEE International Conference on Image Processing(IEEE ICIP 2023) 在吉隆坡举行。在 ICIP 2023 上,天工智能联席 CEO 兼昆仑万维 2050 全球研究院院长颜水成受邀进行了主题为《Foundations of Foundation Models》的 Industry Keynote 演讲。

颜水成在 ICIP 2023 进行演讲

ICIP 2023 是全球图像处理及计算机视觉领域的顶级盛会之一,吸引了来自全球 40 多个国家的超过 1000 名研究人员、工程师、行业先驱等专业观众参与。基础模型(Foundation Models)是当前通用人工智能研究领域的核心技术,被认为是通用人工智能成功的关键之一。在演讲中,颜水成教授讨论了基础模型的三个根基,介绍了最新的深度学习参数优化器,脑神经科学如何推动深度学习网络架构的发展,以及天工智能的大模型和业务落地的最新工作进展。

昆仑万维 AGI 及 AIGC 矩阵

颜教授首先分享了最新的深度学习优化器成果,然后重点介绍了在新一代深度学习网络架构方面的工作。早在 2014 年,颜水成团队就提出了 Network in Network(NiN 网络),第一次提出了 1x1 卷积,当前已成为几乎所有后续深度学习模型的标准组件,极大地推动了深度神经网络架构的创新。此后,颜水成团队还陆续提出了 Dual-path Networks (2017)、Vision Outlooker (2021)、以及 MetaFormer/PoolFormer(2022) 等新一代深度学习模型架构创新。

颜水成及团队《MetaFormer Is Actually What You Need for Vision》论文首页

尤其是在 MetaFormer/PoolFormer 网络中,颜水成团队提出,大模型底层技术 Transformer 在实际应用中的惊人效果并非源自于其自注意力模块或特定的 Token 混合模块,而是在于 Transformer 的架构本身,即元架构——MetaFormer。团队将大模型中的注意力模块替换为简单的空间池化操作,并将其命名为 PoolFormer。这一极简的新型网络架构在多个计算机视觉任务上都取得了极为优秀的性能表现。

生物智能与脑神经科学不断推动人工智能网络架构发展

自深度神经网络方向创立以来,脑神经科学就在不断推动人工智能网络架构发展。除了上述提到的众多新型网络架构外,在本次演讲中,颜水成教授进一步介绍了团队目前正在研发的坐标化记忆(Coordinated Memory)技术的最新进展。基于脑神经科学界的最新学术突破,颜水成团队正在设计一款基于坐标化记忆的可持续基础模型网络架构(Continuable Foundation Model),瞄准大模型现有的灾难性遗忘、持续学习、多模态信息共享、记忆访问开销等问题,将神经网络分解成任务网络与记忆模块,设计出新一代人工智能基础网络架构,并已在多项测试中取得了良好效果。

颜水成在 ICIP 2023 进行演讲

而在大模型的落地应用方面,颜水成教授在演讲中分享了天工智能在大模型落地上的最新进展。比如,大模型「幻觉」问题——模型生成的文本或回复与原文产生信息冲突(Faithfulness)或者不符合基础事实(Factualness)——困扰学术与产业界已久。这是一个普遍存在于众多大模型产品中的问题,尤其是在多模态技术领域。天工智能团队观察到,当前的多模态大模型不仅普遍存在「幻觉」问题,而且用户在向大模型询问输入图像中的不可见对象或事实冲突的相关问题时,现有大模型更倾向于给出「是」或产生「幻觉」。

昆仑万维在解决大模型「幻觉」问题上的最新进展

举例而言,当用户向大模型展示一张没有头发的男性的照片,并向模型询问「图中男人的头发是什么颜色?」时,LLaVA 与 MiniGPT-4 都给出了「这个男人的头发是黑色的」这一回答,产生大模型「幻觉」。针对这一普遍存在的困扰学术与产业界的问题,天工智能团队从多方面入手,从特定 SFT 数据集训练、知识定义与诱导、模型结构、训练方式等领域进行针对性的技术攻关、研发与优化。截止至 2023 年 9 月 4 日,天工智能的 Skywork-MM 在多模态大语言模型测评 MME(含 14 个涵盖感知和认知子任务评估)中综合得分排名第一。

截止至 2023 年 9 月 4 日,昆仑万维的 Skywork-MM 在多模态大语言模型测评 MME 中综合得分排名第一

颜水成教授是计算机视觉和机器学习领域的国际顶级专家。2023 年 9 月 1 日,颜水成教授宣布正式加盟昆仑万维,与昆仑万维创始人周亚辉一起出任天工智能联席 CEO,并兼任昆仑万维 2050 全球研究院院长,主要研究方向包括:(1)下一代 Foundation Model 的基础研究和研发;(2)Agent 的研发和智能体进化的研究;(3)生物智能等前沿技术领域的探索。昆仑万维将持续打造业界领先的人工智能团队,推动天工大模型及 AIGC 业务迈向一个新高度,加速 AI 产品的研发、落地及商业化,探索未知世界、创造美好未来。

来源:互联网

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。