中国信通院发布AI Infra运维领域首个评测基准:为智算产业高质量发展树立新标尺
2026年6月29日,一场聚焦智算生态协同的高级别研讨会正式举办。会上,AISHPerf人工智能软硬件基准体系3.0版本发布,核心包含两项AI基础设施评测基准:智算运维智能体评测基准与算子生成智能体评测基准。这两大基准由顶尖AI技术团队参与建设。
前者是首个面向AI基础设施的运维智能体评测基准,基于百亿级真实运维数据构建,核心目标是考核智算运维智能体在真实生产场景中解决实际问题的落地能力。后者则突破“模型能否生成可运行的GPU算子”这一基础维度,将评测重心聚焦于“模型生成的算子能否在真实量化推理部署中替代现有算子”的工程可部署性,更贴合产业实际落地需求。两项基准从底层算力优化到上层集群运维,共同为智算产业的标准化升级与高质量发展提供了统一的能力参照框架。

AISHPerf(人工智能软硬件性能基准)是由中国信通院与人工智能大模型及软硬件评测工业和信息化部重点实验室,依托人工智能软硬件协同创新与适配验证中心(位于国家信创园)联合构建的体系。该体系设置多维度指标,旨在考察端到端方案对模型及应用场景的真实承载能力,系统评估软硬件各层级间的协同优化水平、兼容适配能力及整体交付效能。
在此次发布的两项基准中,AISHPerf-智算运维智能体评测基准尤为突出。它标志着我国在智算集群运维智能体领域拥有了首个权威评测体系,并率先将国产芯片集群运维场景纳入评测范围,填补了国产智算运维智能体评测领域的空白。这一基准为构建自主自治的新一代“Token工厂”提供了运维领域的技术方向与标准指引。
构建新标准:基于近百亿条真实运维数据构造,从“纸上谈兵”到“实战考核”
随着AI发展从“堆算力、拼规模”迈入以“Token效能”为核心的新阶段,算力与电力投入已成为AI基础设施的“基础常量”。高效率、高质量的运维能力,则成为决定Token产出与生产力转化的“核心变量”。依托智能运维提升算力利用效率、压降运营成本,已成为AI产业发展的必然方向。然而,当前业内对运维智能体的评估多停留在语言问答能力层面,如同“纸上谈兵”,更像是一场笔试,侧重于知识记忆与标准答案复述,缺乏针对真实运维场景的“实战考核”,无法衡量智能体“能否解决实际问题”。
AISHPerf-智算运维智能体评测基准正是一套锚定真实生产场景的实操型评测体系。它以近百亿条真实运维数据作为基础,经过资深运维专家脱敏、精细标注和严格筛选,最终抽象提炼出103条高保真、高质量的典型评测用例。该基准打通了从底层硬件故障到用户侧软件Bug的全链路问题,构建起覆盖5大技术栈、44种问题现象、22个细分故障领域、3种难度层级、6种国内外芯片(其中5种为国产芯片)的立体化科学评测体系。评测流程中不直接指明故障根因,只提供真实的集群环境和有限的问题现象描述,要求智能体自主完成探索、排查和修复任务。最终输出时延、Token消耗、工具调用效率等关键维度的量化结果,全面客观地评估运维智能体在真实生产环境中端到端的解决问题能力。
促进新发展:五种国产芯片覆盖,为国产算力集群从“能用”迈向“好用”提供标准基础
作为我国智算产业自主可控的核心底座,国产芯片近年来实现了从“跟跑”到部分领域“并跑”的关键跨越,已成为全国算力基础设施体系的核心组成部分。据IDC统计,2025年中国市场AI加速卡国产化率已突破四成,国产GPU集群规模进入快速扩容期。但与成熟的通用GPU生态相比,国产芯片在硬件架构、驱动体系、通信协议及框架适配等层面存在显著差异,运维复杂度与难度更大,这直接制约了国产算力的Token产出效率与投产效益,成为国产算力从“规模落地”向“效能释放”进阶的核心瓶颈。
AISHPerf-智算运维智能体评测基准在设计之初便深度融入了对国产化生态的考量,率先在同类基准中纳入了包括“天数、壁仞、沐曦、摩尔、昇腾”5种国产芯片集群运维的特定场景及典型问题测例。这些测例覆盖了国产GPU硬件故障、驱动适配、框架兼容、通信协议等典型运维痛点,首次为国产智算运维智能体建立起统一、可量化的评估标尺,填补了国产智算运维领域的标准空白。

未来,中国信通院将从标准研制、测试验证、生态培育等方面持续推动基准产业应用。结合海量真实运维数据积累与智算运维技术实战能力,不断丰富国产芯片相关评测用例,构建更加体系化、全栈化的国产智算运维评测体系。一方面精准定位国产芯片集群运维的共性痛点与工程难点,牵引产业链上下游协同攻关、补短板强弱项;另一方面以标准化评测驱动运维智能化能力升级,推动国产算力集群真正实现从“能用”到“好用、高效、稳产”的质变,为我国智算产业自主可控与高质量发展筑牢底层标准支撑。
锚定新趋势:指引AI基础设施向自主自治的“Token工厂”升级
运维智能体的深度应用,正在推动AI基础设施自身向“智能体”形态升级。未来的AI基础设施将具备自我感知、自我修复、自我迭代的能力,成为自主自治的系统。内置的运维智能体以“管理者”角色,根据训练与推理需求自动调度资源、优化系统,实现算法与基础设施的深度协同。去年以来,运维智能体已在自有AI基础设施中率先部署,使工单平均处理时间缩短了50%,关键故障处理效率提升约6倍,综合运维成本下降了约30%。在算力和电能不变的前提下,Token产能实现了显著提升。
AISHPerf-智算运维智能体评测基准将为AI基础设施向更高阶的“自主自治”范式演进奠定标准基础。通过统一的评测体系,为构建高效、稳定、自主的智能运维体系提供指导,加速运维智能体在AI基础设施中的规模化应用,实现Token产出的降本增效。这有助于让每一度电、每一张GPU卡都能产出更多更高价值的Token,助力打造持续输出高质量、大规模、高效率AI生产力的“Token工厂”。
通过建立统一评测标准,该基准体系将有力推动运维智能体规模化应用,助力智算基础设施实现自主自治升级,为产业高质量发展奠定坚实基础。