刚刚美团 LongCat-2.0 发布并开源：五万卡国产算力跑出万亿参数 Agent 模型 | BestBlog...

时间：2026-07-01 08:18:41 来源：互联网

龙猫团队正式发布LongCat‑2.0，这是一款面向代码智能体（Agentic Coding）与长程任务的大规模MoE语言模型——总参数达1.6T，每次激活约48B，原生支持1M上下文，且完整训练与推理均运行在AI ASIC超级算力集群上。本文将深入拆解其技术架构、训练闭环、评测成绩与实际演示案例。

LongCat‑2.0的定位非常清晰：为Claude Code、OpenClaw、Hermes等代码智能体调用框架提供可直接接入的底层模型，支撑代码理解、仓库级改写、自动任务执行以及多步骤工作流。其API文档已兼容OpenAI格式、Anthropic格式，并列出Claude Code、Kilo Code、OpenCode、OpenClaw、Codex等多种编程工具的接入方式。

简而言之，LongCat‑2.0将万亿级参数MoE、1M长上下文、国产算力训练与代码智能体衔接整合为一体。模型专注于代码理解、仓库级编辑与长程任务执行，背后配套了从训练、推理、API兼容到工具接入的完整工程链路。其重心已从对话扩展至代码智能体，更贴近一个面向复杂开发任务的底座模型。

国产算力上的训练闭环

LongCat团队自2023年起便探索国产算力路径。根据其路线图，团队从千卡规模起步，逐步攻克算子适配、通信优化、分布式稳定性等难题，最终在五万卡国产算力集群上完成了LongCat‑2.0的训练与推理。

LongCat‑2.0的训练与部署基于大规模AI ASIC超级计算平台。相较于成熟的NVIDIA GPU生态，替代硬件在软件栈、调试工具与社区经验方面均显薄弱，模型团队必须同时解决训练稳定性、数值正确性、并行策略以及故障恢复等挑战。

工程问题	LongCat‑2.0的处理方式
训练可复现	通信与计算路径增强确定性，Embedding、FA、LSA、MoE等模块采用自研确定性算子
数值可靠性	Reduce类算子使用分段二叉树累加以降低浮点误差，关键算子中嵌入bit‑flip检测
大规模并行	在TP、CP、EP、DP、PP基础上引入EMBP，用于并行N‑gram Embedding
内存压力	采用ZeRO‑1、选择性重计算、OOM‑aware offloading，并将padding token路由至zero‑expert
长上下文训练	使用all‑gather‑based CP并行方案，CP可扩展至512以上，支撑原生1M长度训练
吞吐优化	流水线调度、显存优化与算子级控核共同提升训练MFU约1.5倍

龙猫团队成功将万亿参数MoE模型从训练、长上下文、推理部署到API服务的全链路跑通，且该链路完全建立于国产算力集群之上。

为Agentic Coding做的模型结构

LongCat‑2.0的架构围绕三个关键点展开：长上下文、动态计算、多专家融合。

第一是LongCat Sparse Attention（LSA）。它是对DeepSeek Sparse Attention的演进，旨在降低长上下文处理中的indexer开销。LSA包含三个组件：Streaming‑aware Indexing（连续访存）、Cross‑Layer Indexing（跨层复用）以及Hierarchical Indexing（从粗到细的候选筛选）。对于Agent任务而言，1M上下文的真正价值在于能将代码库、文档、日志、历史交互一同放入同一轮任务。

第二是N‑gram Embedding。LongCat‑2.0继承自LongCat‑Flash‑Lite，并在模型中放入135B N‑gram Embedding参数。其思路是将参数扩展到MoE之外的稀疏维度，通过N‑gram token组合捕捉更丰富的局部上下文。由于MoE稀疏率已接近97%，继续堆叠专家的边际收益有限，因此将部分参数预算分配给N‑gram Embedding更具意义。

第三是MOPD多专家融合。后训练阶段被拆分为三类专家：Agent Experts（工具调用、API参数解析、自我纠错）、Reasoning Experts（数学、STEM、多跳推理）以及Interaction Experts（指令跟随、对齐体验、幻觉抑制）。最终通过MOPD将这些能力融合至同一模型。

LongCat‑2.0的MOPD多专家融合结构，图中将专家组分为Agent、Reasoning、Interaction三类。

这也是LongCat‑2.0反复强调Agentic Coding的原因。真实的代码智能体任务很少只考验单道算法题，它通常需要读取整仓库、理解迁移文档、调用工具、运行命令、查看报错并修复。模型必须同时具备长上下文、工具调用、推理、交互和自我纠错能力。

评测结果

LongCat‑2.0的评测聚焦于Code Agent和General Agent场景，图表中包含了Gemini 3.1 Pro、GPT‑5.5以及Claude Opus 4.6/4.7/4.8等闭源模型。标星号者为外部报告指标，其余成绩均由龙猫团队在统一harness下测得。

LongCat‑2.0在代码、搜索和通用Agent场景中的评测结果。

从图表数据看，LongCat‑2.0在Terminal‑Bench 2.1上获得70.8，与Gemini 3.1 Pro的70.7基本持平；在SWE‑bench Pro上为59.5，高于Gemini 3.1 Pro、GPT‑5.5及Claude Opus 4.6的图表成绩，但低于Claude Opus 4.7/4.8。SWE‑bench Multilingual成绩为77.3，接近Claude Opus 4.6的77.8。

在通用Agent和搜索场景中，LongCat‑2.0在FORTE上为73.2，在RWSearch上为78.8，在BrowseComp上为79.9。这些分数不宜简单解读为“谁全面领先”，因为不同benchmark的任务、工具、超时限制、采样参数及外部报告值的采用方式均不相同；更合理的理解是，LongCat‑2.0已将能力重心压向真实工具环境和长程任务，评测焦点也从聊天和单轮问答转向了更复杂的任务执行。

实际演示

官方发布了5个演示视频，覆盖数据分析、代码迁移、应用开发、3D交互和内容生产等场景。按视频顺序观察，核心在于模型能否将一个相对完整的工作任务持续推进下去。

第一类是AI SQL Agent。业务人员用自然语言提出数据问题，LongCat‑2.0需理解意图、规划查询步骤、生成SQL，并将查询结果整理成业务可读的解释。此类任务考验的是意图理解、查询规划、结果解释与工具闭环的完整链路，每一步都必须稳定衔接。

第二类是代码库迁移。给定一个旧版插件代码库和一份新版SDK文档，模型需要先理解项目结构，再将插件迁移至新的接口模式，同时保留原有功能。这个例子比单文件改代码更贴近真实开发，因为模型要同时处理旧代码、目标接口、潜在兼容问题以及最终的可运行结果。

第三类是完整应用开发。用户仅描述“儿童AI游戏训练场”的概念，LongCat‑2.0需补齐技术选型、页面结构、游戏逻辑和视觉细节，最终生成多个可玩的页面。该样例主要考察模型的长程规划与工程组织能力，已超越局部代码生成。

第四类是Three.js 3D交互演示。用户一句描述透明烧瓶、荧光液体、泡沫喷发、液面下降及堆积效果，模型直接生成可打开的HTML文件。该示例将代码生成、视觉状态与交互效果整合，更直观地反映模型对前端运行结果的掌控能力。

第五类是AI小说工厂。该样例将创意写作拆解为世界观构建、章节生成、质量评估、回流修订和多平台发布等步骤，并利用长上下文维持设定一致性。它更像一条多Agent内容流水线，远超简单续写几段文字的范畴。

这些演示都指向同一目标：LongCat‑2.0希望进入“代码智能体作为工作执行器”的场景。模型的输出必须从回答向前推进，去读材料、写代码、调用工具、解释结果，最终将任务交付至可使用的状态。

总结

LongCat‑2.0此番发布的核心看点集中在模型规模、算力闭环与Agent工作流三个方面。1.6T总参数、约48B平均激活、原生1M上下文，将模型容量与上下文窗口推至高位；五万卡级AI ASIC超级计算平台，将国产算力上的训练、长上下文并行、推理服务与稳定性工程串联成完整链条；Agentic Coding则将模型能力直接指向代码仓库、工具调用、长任务执行与真实工作流。

后续检验将更加具体：它能否稳定读取完整仓库、理解迁移文档、修改代码、运行工具、查看报错并修复；能否在数据分析Agent、代码迁移、应用生成以及企业内部长任务中保持可控。待权重、部署文档及更多真实项目实测公布后，答案将逐渐明朗。LongCat‑2.0释放的信号很明确：国产大模型已正式进入代码智能体的工程竞争赛道。

参考链接

LongCat‑2.0介绍页：https://longcat.chat/blog/longcat-2.0
LongCat‑2.0 GitHub仓库：https://github.com/meituan-longcat/LongCat-2.0
LongCat‑2.0 Hugging Face模型页：https://huggingface.co/meituan-longcat/LongCat-2.0
LongCat API中文文档：https://longcat.chat/platform/docs/zh/
LongCat Chat：https://longcat.ai/
LongCat API平台：https://longcat.chat/platform/

上一篇：《Mega Man Star Force Legacy Collection》评测下一篇：微软加码 AI 算力：Azure 全面引入 Anthropic Claude 模型：搭载英伟达 GB300 架构

刚刚 美团 LongCat-2.0 发布并开源：五万卡国产算力跑出万亿参数 Agent 模型 | BestBlog...