近百亿条真实运维数据驱动，中国信通院打造业内首个智算运维智能体评测基准

6 月 29 日，在中国信通院人工智能软硬件协同创新与适配验证中心、中国人工智能产业发展联盟、工信部人工智能标准化技术委员会联合主办的 2026「众智」大模型开放智算生态协同高级别研讨会中，中国信通院副院长魏亮，正式发布 AISHPerf 人工智能软硬件基准体系 3.0 版本，包含两项 AI Infra 领域核心评测基准——AISHPerf-智算运维智能体评测基准以及AISHPerf-算子生成智能体评测基准，两大基准由国内顶尖 AI 原生基础设施服务商无问芯穹及清华大学团队作为重点技术支持方参与建设。

前者是首个面向 AI Infra 的运维智能体评测基准，依托百亿级真实运维数据构建，核心考核智算运维智能体在真实生产场景中解决实际问题的落地能力。后者则跳出「模型能否生成可运行 GPU 算子」的基础维度，将评测重心锚定在「模型生成的算子能否在真实量化推理部署中替代现有算子」的工程可部署性上，更贴合产业实际落地需求。二者从底层算力优化到上层集群运维，共同为智算产业的标准化升级与高质量发展提供了统一的能力参照框架。

AISHPerf（Performance Benchmarks of Artificial Intelligence Software and Hardware）是中国信通院与人工智能大模型及软硬件评测工业和信息化部重点实验室，依托人工智能软硬件协同创新与适配验证中心（位于国家信创园）联合构建的人工智能软硬件基准体系，旨在设置多维度指标，考察端到端方案对模型及应用场景的真实承载能力，系统评估软硬件各层级间的协同优化水平、兼容适配能力及整体交付效能。

在此次发布的两项基准中，AISHPerf-智算运维智能体评测基准尤为引人注目，它不仅标志着我国在智算集群运维智能体领域拥有了首个权威评测体系，更率先将国产芯片集群运维场景纳入评测体系、填补了国产智算运维智能体评测领域的空白，为构建自主自治的新一代「Token 工厂」提供了运维领域的技术方向与标准指引。

构建新标准：基于近百亿条真实运维数据构造，从「纸上谈兵」到「实战考核」

随着 AI 发展从「堆算力、拼规模」迈入以「Token 效能」为核心的新阶段，算力与电力投入已成为 AI 基础设施的「基础常量」，高效率、高质量的运维能力，则是决定 Token 产出与生产力转化的「核心变量」。依托智能运维提升算力利用效率、压降运营成本，已是 AI 产业发展的必然方向。而当前业内对运维智能体的评估多停留在语言问答能力层面的「纸上谈兵」，往往更像是笔试，侧重考察知识记忆与标准答案复述，而缺乏针对真实运维场景的「实战考核」，无法反映智能体「能否解决实际问题」。

AISHPerf-智算运维智能体评测基准正是一套锚定真实生产场景的实操型评测体系。它以无问芯穹沉淀的近百亿条真实运维数据为底座，经资深运维专家脱敏并精细标注和严格筛选，最终抽象提炼出 103 条高保真、高质量的典型评测用例；同时打通从底层硬件故障到用户侧软件 Bug 的全链路问题，构建起覆盖 5 大技术栈、44 种问题现象、22 个细分故障领域、3 种难度层级、6 种国内外芯片（其中 5 种为国产芯片）的立体化科学评测体系。评测流程中不明确指出故障根因，只提供真实的集群环境和有限的问题现象描述，要求智能体完成自主探索、自主排查和自主修复。最终输出时延、Token 消耗、工具调用效率等关键维度的量化结果，全面客观地评估运维智能体在真实生产环境中端到端解决问题的能力。

促进新发展：五种国产芯片覆盖，为国产算力集群从「能用」迈向「好用」提供标准基础

作为我国智算产业自主可控的核心底座，国产芯片近年来实现了从「跟跑」到部分领域「并跑」的关键跨越，已成为全国算力基础设施体系的核心组成部分。据 IDC 统计，2025 年中国市场 AI 加速卡国产化率已突破四成，国产 GPU 集群规模进入快速扩容期。但相较于成熟的通用 GPU 生态，国产芯片在硬件架构、驱动体系、通信协议及框架适配等层面存在显著技术差异，运维复杂度与难度更大，直接制约国产算力的 Token 产出效率与投产效益，成为国产算力从「规模落地」向「效能释放」进阶的核心瓶颈。

AISHPerf-智算运维智能体评测基准在设计之初便深度融入了对国产化生态的考量，率先在同类评测基准中纳入包括「天数、壁仞、沐曦、摩尔、昇腾」5 种国产芯片集群运维的特定场景及典型问题测例，覆盖国产 GPU 硬件故障、驱动适配、框架兼容、通信协议等典型运维痛点，首次为国产智算运维智能体建立起统一、可量化的评估标尺，填补了国产智算运维领域的标准空白。

未来，中国信通院将持续从标准研制、测试验证、生态培育等方面推动基准产业应用，结合无问芯穹海量真实运维数据积累与智算运维技术实战能力，不断丰富国产芯片相关评测用例，构建更加体系化、全栈化的国产智算运维评测体系，一方面精准定位国产芯片集群运维的共性痛点与工程难点，牵引产业链上下游协同攻关、补短板强弱项；另一方面以标准化评测驱动运维智能化能力升级，推动国产算力集群真正实现从「能用」到「好用、高效、稳产」的质变，为我国智算产业自主可控与高质量发展筑牢底层标准支撑。

锚定新趋势：指引 AI 基础设施向自主自治的「Token 工厂」升级

运维智能体的深度应用，正在推动 AI 基础设施自身向「智能体」形态升级。未来的 AI 基础设施，将是能够自我感知、自我修复、自我迭代的自主自治系统。内置的运维智能体将以「管理者」的角色，根据训练与推理需求自动调度资源、优化系统，实现算法与基础设施的深度协同。去年以来，无问芯穹已在推理训练业务中率先部署运维智能体，使工单平均处理时间缩短 50%，关键故障处理效率提升约 6 倍，使综合运维成本下降了约 30%，在算力和电能不变的前提下，实现了 Token 产能的显著提升。

AISHPerf-智算运维智能体评测基准将为 AI 基础设施向更高阶的「自主自治」范式演进奠定标准基础。通过统一的评测体系，为构建高效、稳定、自主的智能运维体系提供指导，加速运维智能体在 AI 基础设施中的规模化应用，实现 Token 产能的降本增效，让每一度电、每一张 GPU 卡都能产出更多更高价值的 Token，助力打造持续输出高质量、大规模、高效率 AI 生产力的「Token 工厂」。

未来，中国信通院与无问芯穹、清华大学将深化产学研协同，迭代优化 AISHPerf-智算运维智能体评测基准，不断扩充场景覆盖维度、丰富数据集规模、提升评测结果的可靠性与权威性，推动其成为行业公认的 AI 集群运维智能体能力评估公共基线，牵引全行业优质运维智能体的技术迭代与规模化落地。与此同时，双方也将持续拓展 AI Infra 全领域核心评测基准布局，构建起全栈的标准矩阵，为建设高效、绿色、自治的新一代 AI 基础设施筑牢标准底座，助力我国智算产业稳步迈向高质量发展新阶段。

来源：互联网

最新文章