
摘要
近日,中国电信研究院携手上海人工智能实验室、清华大学等产学研机构,发布了天罡通用大模型评测榜单。
近日,中国电信研究院携手上海人工智能实验室、清华大学等产学研机构,发布了天罡通用大模型评测榜单。该榜单重点围绕大模型的能力和安全指标进行评估,GPT-4o 综合成绩排名第一;豆包 pro、通义千问 Qwen-Max 和智谱 GLM-4 在国产大模型中名列前三。
图:「天罡」通用大模型评测榜单
本次测评通过全面评测维度、权威评测题库、动态抽题、多裁判模型判别和人工审核等机制对国内外主流通用大模型开展了评测,评测对象包括国际头部闭源 OpenAI 的 GPT-4 系列、Google 的 Gemini 系列、Anthropic 的 Claude 系列、国内主流的闭源模型以及国内外主流的开源模型,评测结果展示了当前开源/闭源通用大模型整体能力分布和差距。
评测结果显示,GPT-4o 在语言理解、认知推理、智能体等方面能力表现出色,总得分 82.55 分。国内头部大模型豆包、智谱清言在中文场景已达到 GPT-4o 的 90% 分位水平。其中,豆包 pro 模型得分达到 79.38 分,不仅在国产模型中排名最高,同时也超过了 Gemini 1.5 pro、Claude3-Opus、Mistral Large 等海外模型。
豆包大模型由字节跳动自研,是国内首批通过算法备案的大模型之一,正在通过字节跳动旗下云服务平台火山引擎面向企业提供服务。在近日召开的火山引擎 AI 创新巡展上海站活动中,新版豆包语言模型正式亮相,宣布其综合能力相比今年 5 月首次发布时提升了 20.3%。(作者:杨欣)
来源:互联网