国内千亿参数 MoE 架构大模型开源!数学能力碾压 Grok,可落地消费显卡!

摘要

开源革命正在上演。

在人工智能领域,一场由 APUS 与新旦智能联手掀起的开源革命正在上演。

4 月 2 日,APUS 与战略合作伙伴新旦智能联合训练、研发的千亿 MoE(Mixture of Experts)架构大模型,在 GitHub 上正式开源。从适配低端算力芯片实现行业普惠,到国内首个开源的千亿参数 MoE 架构大模型模型提质增效,APUS-xDAN 大模型 4.0(MoE)的应用之风将强势来袭。

相比国内其他大模型公司,此次与 APUS 联合开源大模型的新旦智能略显年轻,但创始团队阵容却颇为豪华:这是一支由清华、伯克利、腾讯、Meta 等顶尖学术与工程界精英组成的团队,成员包括全球顶尖的开源 AI 社区知名开发者、资深腾讯云架构师等,并已于今年 3 月初,完成了千万级别的天使轮融资,由 APUS 与 AI 行业资深投资人周弘扬联合投资。

此次双方强强联合,集成各方优势,让 APUS-xDAN 大模型 4.0(MoE)在 4090 之类的低端算力芯片上,综合性能达到了 GPT-4 的 90%。这一全新突破,将为中国企业应用大模型技术提供更大价值,进一步通过算法优化成功破解「算力卡脖子」的难题。

适配低端算力芯片,开启技术普惠新时代

近日,美国商务部发布公告,对美国 2023 年 10 月 17 日发布的半导体出口管制规则进行修订,除此前限制英伟达等公司向中国出口先进的 AI 芯片,这次新规再次加码,对向中国出口芯片的限制也适用于包含低端芯片的笔记本电脑,标志着中国将更难获取美国人工智能芯片和芯片制造工具。

面对国内算力资源局限与国际技术封锁,APUS 董事长兼 CEO 李涛谈到:「中国要想跳出由美牵头设计的『算力陷阱』,一方面就要从算法上进化,能用低端算力来做高端模型;另一方面则是持续推动应用生态的进化,只有坚持双向进化,才有可能实现破局。」

而此次开源的,APUS-xDAN 大模型 4.0(MoE)就是集合数据、工程和芯片 4090 上顺畅运行的千亿参数规模大模型,APUS-xDAN 大模型 4.0(MoE)进一步破局美半导体出口管制,成功助力中国 AI 产业在模型应用上实现普惠。

经实际测试显示,APUS-xDAN 大模型 4.0(MoE)从技术指标上来看,模型数学能力的 GSM8K 达到 79 分,理解能力的 MMLU 达到 73 分,推理能力的 BBH 达到了 66 分,综合性能超过 GPT3.5,逼近 GPT4,在数学能力上更是碾压马斯克开源的 Grok。

对政府而言,APUS-xDAN 大模型 4.0(MoE)的诞生意味着在有限的国产算力资源下,我国依然能自主构建并运行顶级超大规模语言模型,大幅提升国家层面的技术自给自足能力与战略安全。

对企业和个人开发者,尤其是资金有限的小创业者,无需斥巨资购置高端 GPU,如 A100 和 H100,仅需借助相对经济的 4090,即可驾驭这款强大的 AI 工具,极大地降低了创新门槛,实现 AI 技术的普及与广泛应用。

国内千亿 MoE 架构模型开源,重塑效能边界

不难发现,此次开源的 APUS-xDAN 大模型 4.0 率先引入 MoE(Mixture of Experts)架构,成为国内首个开源的千亿参数 MoE 架构大模型。相较于其他宣称拥有 MoE 架构但未开源验证的模型,APUS-xDAN 大模型 4.0(MoE)真正将 MoE 架构应用于超大规模模型。

值得一提的是,APUS-xDAN 大模型 4.0(MoE)采用 GPT4 类似的 MoE 架构,特点是多专家模型组合,同时激活使用只有 2 个子模块,实际运行效率对比传统 Dense 同尺寸模型效率提升 200%,推理成本下降 400%。在实际部署上,通过进一步的高精度微调量化技术,模型尺寸缩小 500%,从而拥有了国内首个可以在消费级显卡运行的千亿 MoE 中英文大模型。

这些特性赋予 APUS-xDAN 大模型 4.0(MoE)在处理复杂任务时,拥有无与伦比的学习效率与模型容量,为人工智能的边界拓展注入澎湃动力,为中国 AI 产业开拓了全新破局路线,成为国产大模型创新探索的先行军。

此次,APUS-xDAN 大模型 4.0(MoE)以令人瞩目的 1360 亿参数规模,一举超越当前国内最大开源模型——阿里的千问 72B(720 亿参数),综合性能达到主流大模型 TOP 级。这一历史性突破,不仅见证了我国在超大规模预训练模型研发领域的重大飞跃,更有力彰显了我国人工智能科研实力与技术创新力的国际地位。

构建 AI 产业应用生态,赋能千行万业

「AI 的发展与应用,离不开大模型的支撑。而开源大模型的出现,则让更多的企业和开发者能够利用这些模型,来构建更多人工智能+应用。」李涛表示,此次,APUS-xDAN 大模型 4.0(MoE)的开源,一定程度上填补了我国在千亿级别参数模型开源上的空白,也为人工智能技术的发展与应用带来了更多的可能性。

自 2014 年创立以来,APUS 至今已推出 200 余款应用产品,涵盖工具、内容与服务等多个场景。APUS 转型人工智能后,重构自身原生产品矩阵,以工具+AI,内容+AI,服务+AI 三层应用为全线产品赋能,探索孵化用户端超级应用。

在行业应用场景上,从应用在 G 端网信领域能实现智能辟谣的「APUS 智信大模型」,到加持 B 端医院智能诊疗的「APUS 岐黄大模型」、智能电商营销的「APUS 少伯大模型」,到 C 端拥有智能绘画能力的「APUS 墨染大模型」、中文创作领域拥有 AI 写手能力的「APUS 云梦大模型」,以及实现文生视频能力的「APUS 墨视大模型」……APUS 正加速实现大模型普惠,让 AI 应用更简单。

在 APUS AI 开放实验室,开发者可通过 API 接口,快速部署自己的创想应用。如今,该 AI 开放实验室汇聚了来自全球的顶尖 AI 人才,通过 APUS 的算力支持,共同开源、开放最新的 AI 大模型,进而推动 AI 产业健康发展。

据悉,此次开源的 APUS-xDAN 大模型 4.0(MoE)也是 APUS 继与深圳大学国家工程实验室联合开源 APUS 大模型 3.0(伶荔)后,带来的又一个重磅大模型,标志着 APUS 在 AI 通用大模型的布局上更进一阶。

未来,面对人工智能产业的发展与挑战,APUS 将通过持续的技术研发与社区共建,积极探索解决方案,不断提升开源大模型的稳定性和泛化能力,确保其在各类复杂应用场景中始终保持领先优势,进一步赋能千行万业。

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。