实测全球最强大模型国内文心一言第一云从从容第二

生成式 AI 带来的是脑力革命, 全球各个机构、厂商竞相发布大模型, 大模型已经成为了人工智能领域的热门话题。在这个领域中, 最强大的一些模型已经被广泛使用, 它们可以帮助企业和个人解放劳动力, 进一步提升工作效率, 但究竟目前哪些模型的能力水平如何, 似乎并没有客观的评价。

本次测试国内外 7 款大模型, 涵盖巨头、互联网大厂、AI 企业、创业公司。经过实测, 发现 GPT-4 仍然是全球大模型的「大哥」, 而在国内, 文心一言、云从从容和清华的开源模型 ChatGLM 可以称为 TOP3。

本次测试题库分为事实与常识、语义理解、文本生成、逻辑推理 4 大板块, 总题量在 573 道, 虽然在特殊任务处理上无法考量, 但大致能反映出大模型的基本能力。

以下是 8 款大模型的介绍:

GPT-3.5 与 GPT-4

GPT 系列是 OpenAI 开发的基于 Transformer 架构的自然语言生成模型, 其规模分别为 1750 亿及 1.76 万亿。

文心一言

文心一言 (英文名:ERNIE Bot) 是百度全新一代知识增强大语言模型, 规模在 2600 亿, 文心大模型家族的新成员, 能够与人对话互动, 回答问题, 协助创作, 高效便捷地帮助人们获取信息、知识和灵感。文心一言是知识增强的大语言模型, 基于飞桨深度学习平台和文心知识增强大模型, 持续从海量数据和大规模知识中融合学习具备知识增强、检索增强和对话增强的技术特色。

云从从容

从容系列大模型是云从科技开发的 AI 助手, 规模在数百亿, 目的是帮助人们更加高效地完成各种任务, 例如回答问题、提供建议、生成代码等。从容的功能主要集中在知识问答、创意文案、逻辑推理、文章撰写、常识问答、代码编写、语言理解、日常生活、专业知识九大维度。

Claude

Claude 是 Anthropic 公司开发的大语言模型 (LLM), 主要特点是有用与可信 (helpful and trustworthy)。Anthropic 成立于 2021 年, 是一家人工智能安全和研究公司, 致力于建立可靠的、可解释的、可操纵的人工智能系统, 公司的创始团队来自于 OpenAI。

ChatGLM

ChatGLM 是清华大学智谱 AI 开发的一个开源的、支持中英双语的对话语言模型, 具备问答和对话功能的语言模型, 并针对中文进行了优化。该模型基于 General Language Model(GLM) 架构, 具有 62 亿参数。

讯飞星火

「讯飞星火认知大模型」是科大讯飞发布的产品, 具有 7 大核心能力, 即文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力。

7.MiniMax

MiniMax 是国内大模型初创企业, 产品包括 Glow 和 Inspo。

来源：上海热线

最新文章