中国信通院牵头:首个智算运维智能体评测基准正式落地 覆盖 5 款主流国产芯片

时间:2026-07-01 09:45:41 来源:互联网

2026年6月29日,中国信通院在智算生态协同高级别研讨会中发布AISHPerf 3.0版本,包含两项AI Infra核心评测基准,为智算产业标准化升级提供能力参照框架。

这两项基准中,前者是AI Infra领域首个运维智能体评测基准,基于百亿级真实运维数据,重点考察智算运维智能体在真实生产场景中的问题解决能力。后者突破了“模型能否生成可运行GPU算子”的基础维度,将评测重点放在“模型生成的算子能否在实际量化推理部署中替代现有算子”的工程可部署性上,更符合产业实际需求。两者从底层算力优化到上层集群运维,共同为智算产业的标准化升级和高质量发展提供了统一的能力参照。

中国信通院牵头,首个智算运维智能体评测基准正式落地,覆盖 5 款主流国产芯片

AISHPerf是中国信通院与人工智能大模型及软硬件评测重点实验室,依托人工智能软硬件协同创新与适配验证中心联合构建的AI软硬件基准体系,通过设置多维度指标,考察端到端方案对模型及应用场景的真实承载能力,系统评估软硬件各层级间的协同优化水平、兼容适配能力及整体交付效能。

在本次发布的两项基准中,AISHPerf-智算运维智能体评测基准尤为引人关注,它标志着我国在智算集群运维智能体领域拥有了首个权威评测体系,并率先将国产芯片集群运维场景纳入评测体系,填补了国产智算运维智能体评测领域的空白,为构建自主自治的新一代“Token工厂”提供了运维领域的技术方向与标准指引。

构建新标准:依托近百亿条真实运维数据构建,实现从“纸上谈兵”到“实战考核”的跨越。随着AI发展从“堆算力、拼规模”进入以“Token效能”为核心的新阶段,算力与电力投入已成为AI基础设施的“基础常量”,而高效高质量运维能力则是决定Token产出与生产力转化的“核心变量”。通过智能运维提升算力利用效率、降低运营成本,已成为AI产业发展的必然选择。目前业内对运维智能体的评估多停留在语言问答层面的“纸上谈兵”,类似于笔试,侧重知识记忆和标准答案复述,缺乏针对真实运维场景的“实战考核”,无法反映智能体解决实际问题的能力。

AISHPerf-智算运维智能体评测基准正是一套聚焦真实生产场景的实操型评测体系。它以业界沉淀的近百亿条真实运维数据为底座,经过资深运维专家脱敏处理、精细标注和严格筛选,最终提炼出103条高保真、高质量的典型评测用例;同时打通从底层硬件故障到用户侧软件Bug的全链路问题,构建起覆盖5大技术栈、44种问题现象、22个细分故障领域、3种难度层级、6种国内外芯片(其中5种为国产芯片)的立体化科学评测体系。评测流程中不直接指出故障根因,仅提供真实的集群环境和有限的问题现象描述,要求智能体完成自主探索、自主排查和自主修复。最终输出时延、Token消耗、工具调用效率等关键维度的量化结果,全面客观地评估运维智能体在真实生产环境中端到端解决问题的能力。

促进新发展:五种国产芯片覆盖,为国产算力集群从“能用”迈向“好用”提供标准基础。作为我国智算产业自主可控的核心底座,国产芯片近年来实现了从“跟跑”到部分领域“并跑”的关键跨越,已成为全国算力基础设施体系的核心组成部分。据IDC统计,2025年中国市场AI加速卡国产化率已突破四成,国产GPU集群规模进入快速扩容期。但相较于成熟的通用GPU生态,国产芯片在硬件架构、驱动体系、通信协议及框架适配等层面存在显著技术差异,运维复杂度与难度更大,直接制约国产算力的Token产出效率与投产效益,成为国产算力从“规模落地”向“效能释放”进阶的核心瓶颈。

AISHPerf-智算运维智能体评测基准在设计之初便深度融入了对国产化生态的考量,率先在同类评测基准中纳入包括“天数、壁仞、沐曦、摩尔、昇腾”5种国产芯片集群运维的特定场景及典型问题测例,覆盖国产GPU硬件故障、驱动适配、框架兼容、通信协议等典型运维痛点,首次为国产智算运维智能体建立起统一、可量化的评估标尺,填补了国产智算运维领域的标准空白。

中国信通院牵头,首个智算运维智能体评测基准正式落地,覆盖 5 款主流国产芯片

未来,中国信通院将持续从标准研制、测试验证、生态培育等方面推动基准产业应用,结合海量真实运维数据积累与智算运维技术实战能力,不断丰富国产芯片相关评测用例,构建更加体系化、全栈化的国产智算运维评测体系,一方面精准定位国产芯片集群运维的共性痛点与工程难点,牵引产业链上下游协同攻关、补短板强弱项;另一方面以标准化评测驱动运维智能化能力升级,推动国产算力集群真正实现从“能用”到“好用、高效、稳产”的质变,为我国智算产业自主可控与高质量发展筑牢底层标准支撑。

锚定新趋势:指引AI基础设施向自主自治的“Token工厂”升级。运维智能体的深度应用正在推动AI基础设施自身向“智能体”形态升级。未来的AI基础设施将是能够自我感知、自我修复、自我迭代的自主自治系统。内置的运维智能体将以“管理者”角色,根据训练与推理需求自动调度资源、优化系统,实现算法与基础设施的深度协同。去年以来,业界已在推理训练业务中率先部署运维智能体,使工单平均处理时间缩短50%,关键故障处理效率提升约6倍,综合运维成本下降约30%,在算力和电能不变的前提下,实现了Token产能的显著提升。

AISHPerf-智算运维智能体评测基准将为AI基础设施向更高阶的“自主自治”范式演进奠定标准基础。通过统一的评测体系,为构建高效、稳定、自主的智能运维体系提供指导,加速运维智能体在AI基础设施中的规模化应用,实现Token产能的降本增效,让每一度电、每一张GPU卡都能产出更多更高价值的Token,助力打造持续输出高质量、大规模、高效率AI生产力的“Token工厂”。

未来,中国信通院与清华大学将深化产学研协同,持续优化运维智能体评测基准,推动其成为行业公共基线,为高效、自治的AI基础设施筑牢标准底座。

开源地址:https://gitee.com/aishperf-caict/aishperf_openness

配套故障模拟器:https://gitee.com/aishperf-caict/aishperf_openness/tree/main/entities/aiops-chaos

运维数据集:https://gitee.com/aishperf-caict/aishperf_openness/blob/main/entities/datasets/aiops-eval-prompts.jsonl

评测框架:https://gitee.com/aishperf-caict/aishperf_openness/tree/main/suites/aiops-eval

中国信通院牵头,首个智算运维智能体评测基准正式落地,覆盖 5 款主流国产芯片