英伟达再创 DeepSeek V4 推理新高：单 Token 成本降至 1/5，AI 吞吐量最高提升 20 倍

时间：2026-07-02 08:11:41 来源：互联网

英伟达在6月30日发布的博文中宣布，依托Blackwell平台的全栈推理优化，使DeepSeek V4模型的单Token成本相比一个月前上线初期降至五分之一，大幅提升推理效率。

英伟达刷新 DeepSeek V4 推理纪录：单 Token 成本降至 1/5，AI 吞吐量最高提升 20 倍

注：单Token成本（Cost Per Token）指模型生成或处理单个token的成本指标，常用于比较不同硬件、软件栈或部署方式的推理成本表现。

英伟达在博文中已将单Token成本列为AI总拥有成本的核心指标，并指出针对DeepSeek v4模型，Blackwell平台已将其降至行业最低水平。

在技术实现方面，英伟达通过生产运营层、应用加速层、基础设施访问层3层来优化推理：

生产运营层负责分布式服务、编排、自动扩缩容和内存管理；

应用加速层负责运行时优化，如计算与通信重叠、内核融合；

基础设施访问层负责调用GPU、网络、内存与系统能力。

通过分离式服务、大规模专家并行、基于NVIDIA NVLink的并行通信、NVFP4精度以及多token预测等技术叠加优化，Blackwell平台单GPU的token吞吐量最高可提升20倍，进一步巩固了AI推理的成本与性能优势。