英伟达双塔 AI 模型开源发布:文本生成速度提升 2.42 倍 画质保留 98.7%

时间:2026-07-04 08:18:52 来源:互联网

英伟达于 7 月 2 日开源了 Nemotron‑Labs‑TwoTower 离散扩散语言模型,直击大模型逐 Token 生成速度缓慢的核心痛点。该模型复用预训练权重,无需从头训练即可大幅降低开发成本,相关权重已在 Hugging Face 公开发布。

image.png

60B 双塔架构,分工并行提升生成效率

模型总参数量 60B,拆分为两座 30B 独立神经网络协同工作。每塔激活 3B 参数,搭载 128 个可路由专家模块。上下文塔固定冻结,负责留存全文语义信息;去噪塔专门训练,依靠扩散机制并行生成文本,两塔通过交叉注意力互通数据。

传统模型逐 Token 串行输出,双塔架构则可并行写入文本,大幅拉高推理吞吐量,兼顾速度与输出效果。多类基准测试数据显示,模型综合能力保留原版 98.7% 水准,文本生成吞吐速度直接提升 2.42 倍,仅代码、数学类任务小幅下滑。

开源落地,适配多场景推理部署

该模型采用专属开源协议开放权重,开发者可自由下载测试、商用部署。运行需搭配双张 H100 或 A100 80GB 显卡,单卡仅支持纯自回归模式,双塔完整推理需双卡协同。测试覆盖常识、数学、代码、阅读理解等多项任务,多数指标与原版基本持平,平衡了生成速度与内容质量。

综上,Nemotron‑Labs‑TwoTower 凭借双塔并行架构与开源策略,在文本生成速度与质量之间取得了有效平衡,为开发者提供了高效的推理部署新方案。