商汤新模型完成训练,12 项权威评测成绩位列第一

摘要

2023 年上半年,商汤发布了「日日新」大模型体系,并发布国内第一个综合性能全面超越 GPT-3.5-turbo 的基模型书生·浦语(InternLM)。InternLM 是商汤联合上海 AI 实验室等多家国内顶尖科研机构发布的预训练大语言模型,共投入约 10,000 张 GPU 在大语言模型的研发上,使其能力实现飞跃式发展。

8 月 28 日,商汤科技公布截至 2023 年 6 月 30 日止六个月中期业绩。财报显示,公司营业收入 14.3 亿元 (人民币),同比增幅 1.3%,整体收入表现稳健。据财报显示,大语言模型 InternLM-123B 在 12 项权威评测中超越 GPT-4 位列第一,综合性能全面超越 GPT-3.5-turbo。

2023 年上半年,商汤发布了「日日新」大模型体系,并发布国内第一个综合性能全面超越 GPT-3.5-turbo 的基模型书生·浦语(InternLM)。InternLM 是商汤联合上海 AI 实验室等多家国内顶尖科研机构发布的预训练大语言模型,共投入约 10,000 张 GPU 在大语言模型的研发上,使其能力实现飞跃式发展。

InternLM-123B表现亮眼 12 项权威评测成绩位列第一

2023 年 8 月,新模型 InternLM-123B 完成训练,参数量提升至 1,230 亿。新模型的语言、知识、理解、推理和学科五大能力均显著提高,在全球 51 个知名评测集(包括 MMLU, AGIEVAL, ARC, CEval, Race, GSM8K 等)共计 30 万道问题集合上测试成绩整体排名全球第二,超过 GPT-3.5-turbo 以及 Meta 新发布的 LLaMA2-70B 等模型。

InternLM-123 在主要评测中 12 项成绩排名第一。其中,在评测集综合考试中 AGIEval 分数 57.8 超越 GPT-4 位列第一;知识问答 CommonSenseQA 评测分数 88.5 排名第一,NaturalQuestions 排名第二;InternLM-123B 在阅读理解 C3、CMRC、RACE (Middle)、RACE (High)、LAMBADA 五项评测中成绩全部居榜首;此外,InternLM-123B 在推理 WinoGrande、StoryCloze、HellaSwag、StrategyQA、SIQA 几项评测中成绩排名第一。

商汤大语言模型能力实现飞跃式发展

商汤于 2023 年 4 月推出商量 SenseChat1.0,是国内最早推出基于千亿参数大语言模型的聊天机器人产品之一。6 月发布的首个综合能力超越 GPT-3.5-turbo 的基模型 InternLM,参数量 1,040 亿,使用 1.6 万亿 token 的多语言语料训练,支持语言达 20 多种,并在此基础上于 7 月初发布了商量 SenseChat2.0。

8 月,商汤发布的 InternLM-123B 不仅生成的内容更加准确、可靠,可在复杂场景中进行多步推理和计算,还具备了自主反思及修正错误的能力。InternLM-123B 也重点升级了代码解释器及插件调用能力 (function calling),可使用 python 解释器、API 调用和搜索三类常用工具来解决复杂任务、灵活搭建 AI 智能体应用。在此基础上,商量 SenseChat 将在 9 月升级到 3.0 版本。

商汤与多家科研机构合作支持和推进 AI 开源平台建设,InternLM-7B(70 亿参数)的部分训练数据、训练代码及基模型权重已经向学术界及工业界免费开源,并支持商用。此外,InternLM-7B 在多个模型测试榜单高踞榜首,成为性能最好的轻量级基模型。商汤表示,期待看到 AI 社区对 InternLM 的改进和更多 AI 应用的共建。

事实上,大语言模型的突破带来了新机遇。商汤基于 InternLM 的轻量级模型,结合自研推理加速算法,与头部手机芯片厂商建立研发合作,成功实现了大语言模型的手机端实时计算能力。商汤表示正在积极与多家手机厂商客户合作,研发大语言模型与手机操作系统结合的新功能。

商汤集团董事会执行主席兼首席执行官徐立博士表示:「在这个半年度,大模型和生成式 AI 可以说是全球最受瞩目的科技突破。商汤迎来了极其关键的发展时期。我们希望给行业带来更强的大模型能力,助力我们的用户在生成式 AI 的时代做出颠覆性的产品,来获得成功。」

 

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。