英伟达再创 DeepSeek V4 推理新高:单 Token 成本降至 1/5,AI 吞吐量最高提升 20 倍

时间:2026-07-02 08:11:41 来源:互联网

英伟达在6月30日发布的博文中宣布,依托Blackwell平台的全栈推理优化,使DeepSeek V4模型的单Token成本相比一个月前上线初期降至五分之一,大幅提升推理效率。

英伟达刷新 DeepSeek V4 推理纪录:单 Token 成本降至 1/5,AI 吞吐量最高提升 20 倍

注:单Token成本(Cost Per Token)指模型生成或处理单个token的成本指标,常用于比较不同硬件、软件栈或部署方式的推理成本表现。

英伟达在博文中已将单Token成本列为AI总拥有成本的核心指标,并指出针对DeepSeek v4模型,Blackwell平台已将其降至行业最低水平。

在技术实现方面,英伟达通过生产运营层、应用加速层、基础设施访问层3层来优化推理:

生产运营层负责分布式服务、编排、自动扩缩容和内存管理;

应用加速层负责运行时优化,如计算与通信重叠、内核融合;

基础设施访问层负责调用GPU、网络、内存与系统能力。

通过分离式服务、大规模专家并行、基于NVIDIA NVLink的并行通信、NVFP4精度以及多token预测等技术叠加优化,Blackwell平台单GPU的token吞吐量最高可提升20倍,进一步巩固了AI推理的成本与性能优势。