1 月 17 日，商汤科技与上海 AI 实验室联合香港中文大学和复旦大学正式发布新一代大语言模型书⽣·浦语 2.0（InternLM2）。InternLM2 的核心理念在于回归语言建模的本质，致力于通过提高语料质量及信息密度，实现模型基座语言建模能力质的提升，进而在数理、代码、对话、创作等各方面都取得长足进步，综合性能达到开源模型的领先水平。

InternLM2 是在 2.6 万亿 token 的高质量语料上训练得到的。沿袭第一代书生·浦语（InternLM）的设定，InternLM2 包含 7B 及 20B 两种参数规格及基座、对话等版本，满足不同复杂应用场景需求，继续开源，提供免费商用授权。

开源链接

Github：https://github.com/InternLM/InternLM

HuggingFace：https://huggingface.co/internlm

ModelScope：https://modelscope.cn/organization/Shanghai_AI_Laboratory

回归语言建模本质，筑牢大模型能力基础

大模型的研究应回归语言建模本质，大模型各项性能提升的基础在于语言建模能力的增强。为此，联合团队提出了新一代的数据清洗过滤技术，通过更高质量的语料以及更高的信息密度，筑牢大模型能力基础。

主要发展了以下几个方面的技术方法：

多维度数据价值评估：基于文本质量、信息质量、信息密度等维度对数据价值进行综合评估与提升；

高质量语料驱动的数据富集：利用高质量语料的特征从物理世界、互联网以及语料库中进一步富集类似语料；

针对性的数据补齐：针对性补充语料，重点加强现实世界知识、数理、代码等核心能力。

目前，浦语背后的数据清洗过滤技术已经历三轮迭代升级。仅使用约 60% 的训练数据即可达到使用第二代数据训练 1T tokens 的性能表现，模型训练效率大幅提升。

第三代数据清洗过滤技术大幅度提升模型训练效率

基于第三代数据清洗过滤技术，InternLM2 语言建模能力实现了显著增强。

与第一代 InternLM 相比，InternLM2 在大规模高质量的验证语料上的 Loss 分布整体左移，表明其语言建模能力实质性增强

支持 200K超长上下文，「大海捞针」近乎完美

长语境输入及理解能力能够显著拓展大模型应用场景，比如支持大型文档处理、复杂的推理演算和实际场景的工具调用等。然而，大模型有限的上下文长度当前仍是学界及业内面临的重要难题。通过拓展训练窗口大小和位置编码改进，InternLM2 支持 20 万 tokens 的上下文，能够一次性接受并处理约 30 万汉字（约五六百页的文档）的输入内容，准确提取关键信息，实现长文本中「大海捞针」。

参考业界范例，研究人员对 InternLM2 进行了「大海捞针」试验：将关键信息随机插入一段长文本的不同位置并设置问题，测试模型能否从中提取出关键信息。

InternLM2「大海捞针」试验效果

上图展示了 InternLM2 在不同长度的上下文（横轴）及上下文中不同位置（纵轴）上召回关键信息的准确率（Recall）。红色代表较低的召回准确率，而绿色则代表较高的召回率。试验结果表明，InternLM2 在上下文长度延展到 200K 时依旧保持了近乎完美的召回成功率，验证了 InternLM2 对于超长上下文坚实的支持能力。

为测试 InternLM2 在真实长文本处理任务中的能力，研究人员将一份时长 3 小时的公开会议录音转录稿输入模型中，并要求 InternLM2 从中提取出关键信息。测试结果表明，尽管在未校对的文本中存在较多错别字，但 InternLM2 仍从中准确提炼出了关键信息，并总结了关键发言人的观点。

InternLM2 准确总结「联合国 2023 年 10 月 2 日召开的联合国贸易和发展会议会议记录」

性能全面提升，综合领先同量级开源模型

InternLM2 的各项能力获得全面进步，相比于初代 InternLM，在推理、数学、代码等方面的能力提升尤为显著，综合能力领先于同量级开源模型。

根据大语言模型的应用方式和用户关注的重点领域，研究人员定义了语言、知识、推理、数学、代码、考试等六个能力维度，在 55 个主流评测集上对多个同量级模型的表现进行了综合评测。评测结果显示，InternLM2 的轻量级及中量级版本性能在同量级模型中表现优异。

InternLM2 的轻量级及中量级版本性能在同量级开源模型中表现优异

下面的表格对比了 InternLM2 各版本与 ChatGPT（GPT-3.5）以及 GPT-4 在典型评测集上的表现。可以看到，InternLM2只用 20B参数的中等规模，即在整体表现上达到了与ChatGPT比肩的水平。其中，在 AGIEval、 BigBench-Hard（BBH）、GSM8K、MATH 等对推理能力有较高要求的评测上，InternLM2 表现甚至优于 ChatGPT。

InternLM2 与 ChatGPT 的评测结果对比

与此同时，综合性能的增强，带来了下游任务的全方位能力提升。新发布的 InternLM2 提供优秀的对话及创作体验，支持多轮任务规划及工具调用，并提供实用的数据分析能力。

对话及创作：更温情、更富想象力

InternLM2 不仅在客观性能指标上提升显著，在主观体验上也有明显改善，可以为用户提供优秀的对话和交互体验。研究测试表明，InternLM2-Chat可以精准地理解和遵循用户意图，具备较强的共情能力和丰富的结构化创作能力。下面展示几个示例：

示例一：在严格的格式要求下编制课程大纲

InternLM2 设计的课程大纲精准遵循用户要求（比如格式、数量、内容等）。

示例二：以富有人文关怀的回答开解用户

InternLM2 能够在对话中与用户「共情」

示例三：展开想象力，编写《流浪地球 3》的剧本

InternLM2 设计的具备充满丰富的合理想象，比如外星遗迹、量子纠缠的引入等。同时整个故事表现了人类面对危机时的勇气和团结精神。

对话和创造的体验进步的原因，一方面是基础语言能力的显著增强，另一方面也得益于微调技术的提升。InternLM2 进行微调的过程使用了经过第三代数据清洗过滤技术处理的指令微调语料，同时也采用了更强的 Online RLHF。研究人员在微调 InternLM2 的过程中，对奖励模型和对话模型进行了三轮迭代更新，每一轮更新均针对前一轮模型的表现更新偏好数据与提示词。在奖励模型训练（RM）和近端策略优化（PPO）阶段，研究人员均衡采用各类提示词，不仅提高了对话的安全性，也提升了用户体验。

工具调用：能力升级，更精准的工具选用，更可靠的多步规划

基于更强大、更具泛化性的指令理解、工具筛选与结果反思等能力，InternLM2 可支持复杂智能体的搭建，支持对工具进行多轮有效调用及多步骤规划，完成复杂任务。联合团队针对多种任务构建了细粒度工具调用评测集 T-Eval（https://open-compass.github.io/T-Eval），InternLM2-Chat-7B 在该评测集上表现超越了 Claude-2.1 和目前的开源模型，性能接近 GPT-3.5。

InternLM2 工具调用能力全面提升

通过工具调用，使得大语言模型可通过搜索、计算、代码解释器等获取知识并处理更复杂的问题，从而拓展应用边界。研究人员对模型调用工具流程实施细粒度的拆解和分析，针对规划、推理、工具选择、理解、执行、反思等步骤进行了针对性增强和优化。

基于 InternLM2 通过开源智能体框架 Lagent 搭建的用户助手智能体，能够在一次指令回应中完成地图查询、路线规划、发邮件等任务

数理推理：会做题，还会可视化分析

数学能力是大模型逻辑思维和推理能力的重要体现。上海 AI 实验室对 InternLM2 的数学能力进行全面提升，使其达到当前开源模型的标杆水平。

基于更加科学构建的预训练语料，InternLM2 形成了很强的内生计算能力。在不依靠计算器等外部工具的情况下，在 100 以内的简单数学运算上能够做到接近 100% 的准确率，在 1000 以内达到 80% 左右的运算准确率。在 GSM8K 和 MATH 评测中，InternLM2-20B 的表现超过了 ChatGPT（GPT-3.5）。

InternLM2 在 100 以内的简单数学运算上能够做到接近 100% 的准确率

为应对各类复杂计算，InternLM2-Chat 还可借助代码解释器（Code-Interpreter）编写代码进行计算，或对推理的结果进行形式化验证，从而解决计算要求更高或者演算过程更加复杂的问题。在典型的数学评测集 GSM8K 和 MATH 上，配合代码解释器，InternLM2 取得了更高的评测分数。其中对于难度更高的 MATH 数据集，InternLM2 的计算精度从 32.5 大幅提升到 51.2，甚至超过了 GPT-4 的表现。

InternLM2 与 ChatGPT 的数学能力评测结果对比

下面的示例展示了 InternLM2 可以和代码解释器结合解决较复杂的高等数学问题。

InternLM2 能够完成积分求解等高等数学题目

基于在计算及工具调用方面强大的基础能力，InternLM2 在语言模型中具备了数据分析和可视化实用能力，进一步贴近用户使用场景。

向 InternLM2 输入国家统计局公布的「2023 年 3-11 月份规模以上工业企业主要财务指标（分行业）」，InternLM2 能够分析数据并绘制折线图

+++

关于商汤

作为人工智能软件公司，商汤科技以「坚持原创，让 AI 引领人类进步」为使命，旨在持续引领人工智能前沿研究，持续打造更具拓展性更普惠的人工智能软件平台，推动经济、社会和人类的发展，并持续吸引及培养顶尖人才，共同塑造未来。

商汤科技拥有深厚的学术积累，并长期投入于原创技术研究，不断增强行业领先的多模态、多任务通用人工智能能力，涵盖感知智能、自然语言处理、决策智能、智能内容生成等关键技术领域，同时包含 AI 芯片、AI 传感器及 AI 算力基础设施在内的关键能力。此外，商汤前瞻性打造新型人工智能基础设施——商汤 AI 大装置 SenseCore，打通算力、算法和平台，并在此基础上建立商汤「日日新 SenseNova」大模型及研发体系，以低成本解锁通用人工智能任务的能力，推动高效率、低成本、规模化的 AI 创新和落地，进而打通商业价值闭环，解决长尾应用问题，引领人工智能进入工业化发展阶段。商汤科技业务涵盖智慧商业、智慧城市、智慧生活、智能汽车四大板块，相关产品与解决方案深受客户与合作伙伴好评。

商汤倡导「发展」的人工智能伦理观，并积极参与有关数据安全、隐私保护、人工智能伦理道德和可持续人工智能的行业、国家及国际标准的制订，与多个国内及多边机构就人工智能的可持续及伦理发展开展了密切合作。商汤《AI 可持续发展道德准则》被联合国人工智能战略资源指南选录，并于 2021 年 6 月发表，是亚洲唯一获此殊荣的人工智能公司。

目前，商汤（股票代码：0020.HK）已于香港交易所主板挂牌上市。商汤在香港、上海、北京、深圳、成都、杭州、南平、青岛、西安、台北、澳门、京都、东京、新加坡、利雅得、阿布扎比、迪拜、吉隆坡、首尔等地设立办公室。另外，商汤科技在泰国、印度尼西亚、菲律宾等国家均有业务。更多信息，请访问商汤科技网站、微信、微博和领英。

媒体联络及查询

商汤科技

邮箱：pr@sensetime.com

支持 200K 超长上下文、一次可读 30 万汉字，「书生·浦语」2.0 正式开源