英伟达双塔 AI 模型开源发布：文本生成速度提升 2.42 倍画质保留 98.7%

时间：2026-07-04 08:18:52 来源：互联网

英伟达于 7 月 2 日开源了 Nemotron‑Labs‑TwoTower 离散扩散语言模型，直击大模型逐 Token 生成速度缓慢的核心痛点。该模型复用预训练权重，无需从头训练即可大幅降低开发成本，相关权重已在 Hugging Face 公开发布。

60B 双塔架构，分工并行提升生成效率

模型总参数量 60B，拆分为两座 30B 独立神经网络协同工作。每塔激活 3B 参数，搭载 128 个可路由专家模块。上下文塔固定冻结，负责留存全文语义信息；去噪塔专门训练，依靠扩散机制并行生成文本，两塔通过交叉注意力互通数据。

传统模型逐 Token 串行输出，双塔架构则可并行写入文本，大幅拉高推理吞吐量，兼顾速度与输出效果。多类基准测试数据显示，模型综合能力保留原版 98.7% 水准，文本生成吞吐速度直接提升 2.42 倍，仅代码、数学类任务小幅下滑。

该模型采用专属开源协议开放权重，开发者可自由下载测试、商用部署。运行需搭配双张 H100 或 A100 80GB 显卡，单卡仅支持纯自回归模式，双塔完整推理需双卡协同。测试覆盖常识、数学、代码、阅读理解等多项任务，多数指标与原版基本持平，平衡了生成速度与内容质量。

综上，Nemotron‑Labs‑TwoTower 凭借双塔并行架构与开源策略，在文本生成速度与质量之间取得了有效平衡，为开发者提供了高效的推理部署新方案。