模型「日日新」,商汤「商量 SenseChat 2.0」多个评测基准综合表现超 ChatGPT

摘要

已有近千家企业客户通过申请,应用和体验「商量 SenseChat 2.0」超强的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力

近日,商汤科技公布了自研中文语言大模型「商量 SenseChat 2.0」在 MMLU、AGIEval、C-Eval 三个权威大语言模型评测基准的成绩。根据评测结果,「商量 SenseChat 2.0」在三个测试集中表现均领先 ChatGPT,实现了我国语言大模型研究的重要突破。

截至目前,已有近千家企业客户通过申请,应用和体验「商量 SenseChat 2.0」超强的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力,并且「商量 SenseChat 2.0」还在服务客户过程中,持续实现着快速迭代和提升,以及知识的实时更新。

三个权威大语言模型评测基准结果:「商量 SenseChat 2.0综合能力超ChatGPT

商汤科技公布的评测结果中,选取了全球三大权威语言模型测评基准 MMLU、AGIEval、C-Eval,结果显示「商量 SenseChat 2.0」在三个测试集中表现均领先 ChatGPT,部分已十分接近 GPT4 的水平。

  •  由美国加州大学伯克利分校等高校构建的多任务考试评测集 MMLU;
  •  微软研究院推出的学科考试评测集 AGIEval(含中国高考、司法考试及美国 SAT、LSAT、GRE 和 GMAT 等);
  • 由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集 C-Eval;

各大语言模型在 MMLU、AGIEval、C-Eval 三个评测基准中得分情况

MMLU 是由美国加州大学伯克利分校、哥伦比亚大学、芝加哥大学及伊利诺伊大学厄巴纳-香槟分校联合打造的大规模多任务语言理解的评测基准,涵盖了科学、技术、工程、数据,人文、社会科学等领域的 57 个科目,难度从初级水平到高级专业水平,考验世界知识和解决问题的能力。(参考论文:https://arxiv.org/abs/2009.03300)

在该评测中,「商量 SenseChat 2.0」综合得分为 68.6,远超 GLM-130B(45.7 分)的得分,同时还超过了 ChatGPT(67.3 分)、LLaMA-65B(63.5 分)仅落后 GPT-4(86.4 分),位居第二。在各主要子评测集中的表现如下:

(图中粗体表示结果最佳,下划线表示结果第二)

AGIEval 是由微软研究院发布的,专门用于评估基础模型在人类认知和问题解决相关任务中表现出的一般能力,从而实现模型智能和人类智能的对比。该基准选取 20 种面向普通人类考生的官方、公开、高标准往常和资格考试,包括普通大学入学考试(中国高考和美国 SAT 考试)、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等。(参考论文:https://arxiv.org/abs/2304.06364)

在该评测中,「商量 SenseChat 2.0」测出 49.91 的分数,遥遥领先 GLM-130B(34.2 分)、LLaMMA-65B(34.0 分),并再次超越 ChatGPT(42.9 分),仅次于 GPT-4 的 56.4 分。在其中的 AGIEval(GK)评测子集中,「商量 SenseChat 2.0」以 58.5 分全面领先,仅微弱差距落后 GPT-4(58.8 分)。细分科目评测结果如下,其中带 GK 的是中国高考科目:

(图中粗体表示结果最佳,下划线表示结果第二)

C-Eval 是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集,包含了 13948 个多项选择题,涵盖了 52 个不同的学科和四个难度级别。(参考论文:https://arxiv.org/abs/2305.08322)

面对 C-Eval 评测基准,「商量 SenseChat 2.0」拿到了 66.1 的分数,在参评的 18 个大模型中,仅次于 GPT-4(68.7 分),全面领先 ChatGPT、Claude、Bloom、GLM-130B、LLaMA-65B 等一众海内外大模型。其中,C-Eval(Hard)子评测集,是选择了 8 个具有挑战性的数据、物理和化学科目,进一步考核大语言模型的推理能力,「商量 SenseChat 2.0」也表现居于前列。

图:最新 C-Eval 排行榜

(来源:https://cevalbenchmark.com/static/leaderboard.html)

技术创新+客户落地,推动「商量 SenseChat 2.0」能力快速持续提升

今年 4 月,商汤正式发布「商汤日日新 SenseNova」大模型体系,以及自研中文语言大模型「商量 SenseChat」。截至 6 月,全球范围内正式发布的大语言模型已超过 40 款,其中由中国厂商、高校、科研院所等发布的大语言模型近 20 款。

在「百花齐放」的市场格局中,通过对比成绩与表现,我们可以了解各大预言模型的特点与差异,并且直观地了解每个大语言模型当前的智能水平。目前「商量 SenseChat 2.0」实现了对 GPT-3.5 超越,并且随着商业化落地的推进,在众多行业、场景中发挥令人满意的作用。

例如在需要大量文案工作的场景中,「商量 SenseChat 2.0」可以协助处理各类文章、报告、信函、产品信息、IT 信息等,进行编辑、重写、总结、分类、提取信息、制作 Q&A 等,有效提高企业员工的生产效率。在客户服务场景中,「商量 SenseChat 2.0」还可以扮演许多不同的企业角色,如银行客服、给孩子讲故事的绘本老师等等,并进行顺畅的交流和互动,提升客户体验。

此外,「商量 SenseChat 2.0」还拥有广泛的知识储备,能够结合企业自身所在行业的专有数据,非常高效地打造满足企业需要的高阶知识库,帮助实现更智能化的知识库管理。「商量 SenseChat 2.0」还是高水平的 AI 代码助手,能够极大帮助提高开发效率,实现新的二八定律,即 80% 的代码由 AI 生成,20% 则由人工生成。

商汤大语言模型能力的提升源于更多高质量中文数据的训练学习,得益于团队在底层大模型技术上的不断创新。商汤团队在训练阶段采用自研的一系列增强复杂推理能力的方法,以及更加有效的反馈学习机制,让大模型增强推理能力的同时,减轻了传统大模型的幻觉问题。

申请试用「商量 SenseChat 2.0」:

https://lm_experience.sensetime.com/document/authentication 

 

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。