Nemotron-Labs-TwoTower - 英伟达开源双塔架构扩散语言模型

时间:2026-07-03 08:16:41 来源:互联网

Nemotron-Labs-TwoTower是NVIDIA推出的双塔扩散语言模型,通过解耦上下文理解与去噪生成实现高质量与高吞吐的平衡。下文将解析其架构、功能、用法及优势。

Nemotron-Labs-TwoTower是什么

NVIDIA Nemotron-Labs-TwoTower 是一种由英伟达开源的双塔架构扩散语言模型,总参数约60B,活跃参数为3B。该模型将上下文理解与去噪生成分离为两个独立塔:冻结的AR上下文塔负责处理干净token,可训练的扩散去噪塔则通过交叉注意力精炼噪声块。模型基于Nemotron-3-Nano-30B-A3B构建,在约2.1T tokens上训练,保留了自回归基线98.7%的质量,生成吞吐量提升2.42倍,支持Mask Diffusion、Mock-AR与AR-only三种推理模式。

img_6a46ff69c89dc30.webp

Nemotron-Labs-TwoTower的主要功能

  1. 双塔分离推理:将上下文编码与去噪生成分解为两个独立模块,避免单一网络身兼两职引发性能瓶颈。
  2. 三种推理模式切换:单一检查点支持 Mask Diffusion、Mock-AR与 AR-only,灵活适配不同场景需求。
  3. 高质量文本生成:在保留自回归基线 98.7% 聚合基准质量的前提下,实现可并行的迭代生成。
  4. 高吞吐生成加速:2×H100 环境下生成吞吐量提升 2.42 倍,显著降低推理延迟与计算成本。
  5. 商用级开源部署:采用NVIDIA Nemotron Open Model License 开源权重,支持企业商用与二次开发。

Nemotron-Labs-TwoTower的技术原理

  1. 核心思想:传统扩散语言模型使用单一网络同时承担上下文理解和迭代去噪两个角色,导致两者互相掣肘。TwoTower 将这两个职责解耦为双塔架构:
    1. 上下文塔(Context Tower):冻结的 Nemotron-3-Nano-30B-A3B,采用因果注意力处理干净token,负责高质量的上下文表示编码。
    2. 去噪塔(Denoiser Tower):可训练模块,采用双向块注意力处理带噪声的 token 块,通过交叉注意力从上下文塔获取语义指导,逐步精炼去噪。
  2. 训练方式:基于 30B 混合 Mamba-Transformer MoE 骨架,在约 2.1T tokens 上训练,用 MoE 稀疏激活实现高效计算。
  3. 推理优势:扩散模型的并行迭代特性天然支持加速解码,双塔分离后去噪塔无需重复编码上下文,在保证质量的同时大幅提升 wall-clock 吞吐量。

img_6a46ff69d321131.webp

如何使用Nemotron-Labs-TwoTower

  1. 访问 HuggingFace 模型页:打开 Nemotron-Labs-TwoTower-30B-A3B-Base-BF16 官方仓库页面。
  2. 阅读模型卡与许可:确认 NVIDIA Nemotron Open Model License 商用条款,了解模型架构与硬件要求。
  3. 克隆/下载权重:用 git lfs 或 HuggingFace transformers 库下载模型权重与配置文件。
  4. 配置运行环境:准备至少 2×H100 GPU 环境,安装 PyTorch 及依赖库(参考仓库 requirements.txt)。
  5. 加载模型与分词器:通过 AutoModelForCausalLMAutoTokenizer 加载模型,选择 Mask Diffusion / Mock-AR / AR-only 推理模式。
  6. 执行推理生成:输入 prompt,调用模型生成接口,利用双塔架构完成高效并行去噪生成。
  7. 微调适配:基于自有数据对可训练的去噪塔进行进一步微调,冻结上下文塔保持不变。

Nemotron-Labs-TwoTower的核心优势

  1. 双塔解耦,各司其职:将上下文编码与去噪生成分离为两个独立塔,避免单一网络角色冲突导致的性能瓶颈。
  2. 质量几乎无损:保留自回归基线 98.7% 的聚合基准质量,扩散生成不再以牺牲输出质量为代价。
  3. 推理速度翻倍:在 2×H100 环境下实现 2.42 倍 wall-clock 生成吞吐量,显著降低延迟与算力成本。
  4. 一模型三模式:单一检查点支持 Mask Diffusion、Mock-AR、AR-only 三种推理方式,灵活适配不同延迟与质量需求场景。
  5. 开源可商用:采用 NVIDIA Nemotron Open Model License 发布权重,支持企业自由部署与商业二次开发。

Nemotron-Labs-TwoTower的项目地址

  1. HuggingFace模型库:https://huggingface.co/collections/nvidia/nemotron-labs-twotower
  2. arXiv技术论文:https://arxiv.org/pdf/2606.26493

Nemotron-Labs-TwoTower的同类竞品对比

发布机构NVIDIAMIT
架构设计双塔分离:冻结AR上下文塔 + 可训练扩散去噪塔(交叉注意力连接)单塔统一:单一Transformer同时承担上下文编码与掩码去噪
总参数量~60B(活跃3B,MoE稀疏)8B(稠密)
基座模型Nemotron-3-Nano-30B-A3B(Mamba-Transformer MoE)自研Transformer
训练数据~2.1T tokens~2T tokens
基线质量保留98.7%(相对自回归基线)~95%(相对同等规模AR模型)
吞吐提升2.42×(2×H100,wall-clock)~1.5×(标准GPU环境)
推理模式三种:Mask Diffusion / Mock-AR / AR-only单一:掩码扩散(随机/半自回归采样)
注意力机制上下文塔:因果注意力;去噪塔:双向块注意力 + 交叉注意力统一双向注意力 + 位置编码处理
核心创新角色解耦:避免单一网络身兼两职的性能瓶颈简单 scalable:证明扩散模型可scale至8B并逼近GPT-4质量

Nemotron-Labs-TwoTower的应用场景

  1. 高并发在线服务:2.42倍吞吐提升使其适合搜索引擎、智能客服等需要低延迟、高并发的实时文本生成场景。
  2. 长文档生成:扩散模型的并行迭代特性适合长文本续写、报告生成、代码补全等需要多步 refine 的任务。
  3. 多模式灵活部署:三种推理模式切换让企业可根据成本/质量权衡,在边缘端用 AR-only、在云端用 Mask Diffusion。
  4. 商用产品开发:模型可商用许可支持企业将模型集成至写作助手、营销文案生成器、代码辅助工具等商业化产品。
  5. 科研与二次创新:开源权重与论文细节便于研究者探索扩散语言模型架构、训练策略及跨模态扩展方向。

综上,Nemotron-Labs-TwoTower凭借双塔解耦、多种推理模式和高吞吐特性,为研究者与开发者提供了一个兼具质量与效率的选择,适用于从云端到边缘的多种文本生成场景。