OpenAI掀小模型血战苹果DCLM强势登场碾压Mistral 7B全开源

时间：2026-07-05 08:43:49 来源：互联网

小模型竞争日趋白热化，继GPT‑4o mini与Mistral NeMo发布后，苹果携DCLM系列开源模型正式入局。该系列包含70亿与14亿两种参数规模，其中70亿版本性能超越Mistral‑7B，逼近Llama 3与Gemma，并且完全开源。

据苹果ML小组研究科学家Vaishaal Shankar（亦是DCLM研发人员）介绍，这是迄今为止性能最佳的“真正开源”模型，不仅提供权重与训练代码，还基于开放数据集DCLM‑Baseline。

相比模型本身，DCLM树立的“真正开源”典范更受关注。与多数科技巨头仅闭源模型或只开源代码/权重的做法不同，苹果的慷慨之举赢得了网友盛赞。

此外，Shankar预告后续还将上线模型中间检查点与优化器状态。

难道LLM开源社区的春天真的到来了吗？

DCLM系列全开源

目前HuggingFace上已发布全部模型权重，模型卡涵盖了关键信息。

https://huggingface.co/apple/DCLM-7B

DCLM-7B采用decoder‑only架构，基于PyTorch与OpenLM框架预训练。训练数据取自总量240T的DCLM，其中DCLM‑baseline数据集共4T token，DCLM‑7B进一步过滤出2.5T用于训练。

上下文长度为2048，小于Mistral 7B与Gemma 2 9B的8k长度。

性能方面，作者使用评估套件LLM Foundry测试了53个基准任务。除MMLU分数外，还自定义了“核心准确率”与“扩展准确率”两个指标——前者为包括HellaSwag、ARC‑E在内的22个任务中心准确率均值，后者涵盖全部53个任务。

尽管使用的数据并非最多，但在同等大小的开放数据模型（权重与数据集均开源）中，DCLM三项指标均达最佳。

三列基准分数从左到右分别是：核心、MMLU、扩展

相较此前SOTA MAP‑Neo模型，DCLM‑7B在5‑shot MMLU任务上准确率达63.7%，提升6.6个百分点，同时训练计算量减少40%。但与权重开源、数据集闭源的模型相比效果稍逊：DCLM与Phi‑3差距明显，与Mistral‑7B‑v0.3或Gemma 8B大致相当。

研究人员发现，若使用同一数据集额外100B数据进行训练并将上下文长度扩展至8k，核心与扩展基准分数进一步上升，但MMLU不变。

该结果全面超越Mistral 7B‑v0.3。此外，HuggingFace还发布了7B模型的指令微调版本，在数学推理任务GSM8K上分数从2.1飙升至52.5。

https://huggingface.co/apple/DCLM-7B-8k

除7B版本外，1.4B版本同步上线，训练数据量反而比7B版本多出0.1T。

https://huggingface.co/TRI-ML/DCLM-1B

与HuggingFace近期发布的SmolLM相比，DCLM‑1B性能明显更优，5‑shot MMLU分数提升11.9%。同时该模型在MMLU上41.9的得分高于Qwen‑1.5B的37.87与Phi‑1.5B的35.90。

7B模型落后于他人，反而1.4B版本实现反超，看来小模型才是苹果的强项。值得注意的是，7B模型仅在Apple示例代码许可（ASCL）下使用，但1.4B版本以Apache 2.0发布，允许商业使用、分发与修改。

提及DCLM系列，就必须说到其基础——DataComp基准。该论文于6月17日首发，共同一作Jeffrey Li、Alex Fang与共同最后作者Vaishaal Shankar均为苹果DCLM研发人员。论文详细阐述了数据集构建过程及DCLM模型相关细节。Vaishaal Shankar表示将很快发布更新版，提供更多预训练技术细节。

论文地址：https://arxiv.org/pdf/2406.11794

DataComp的思路与常规做法相反——固定模型，从240T数据池中过滤出最佳数据。这恰好与科技巨头的研发思路一致：对于LLM性能，预训练数据正变得比模型架构与权重更重要。毕竟Llama、Gemma、Phi等“开源”模型均只放权重、不公布数据。

既要Scaling Law，又要SLM

对AI巨头而言，模型并非越大越好。

AI社区一直不缺小模型，如微软Phi系列多次迭代，谷歌6月底更新的Gemma 2 7B，以及本周OpenAI发布的GPT‑4o mini、Mistral AI与英伟达联手推出的Mistral NeMo、HuggingFace的SmolLM等，让小模型领域热度再升。正如OpenAI研究员所言，“我们比任何人都喜欢训练大模型，但也知道如何训练小模型”。

小模型优势在于成本低、速度快、更专业，通常用少量数据针对特定任务训练。大模型变小再扩大规模，可能是未来趋势之一。

前两日GPT‑4o mini发布时，Andrej Karpathy发长推表达了类似观点。

他认为模型尺寸竞争将“反向加剧”——不是越大越好，而是越轻巧越好。当前LLM沦为“巨兽”是因为训练过程浪费，我们基本在要求模型记住整个互联网。但对于小模型，训练目标已变：如何从更少数据中学到更多。我们需要先让模型变大，再变小，因为“巨兽”能将数据重构为理想的合成形式，从而获得“完美训练集”再喂给小模型。

马斯克也赞同此观点。Karpathy描述的模型改进阶梯正是特斯拉曾走过的路。

2023年4月Sam Altman曾宣布大模型时代终结，近期采访中他确认数据质量是AI训练的关键成功因素。

微软研究人员在开发Phi模型时提出类似假设，Hugging Face的AI研究人员近期也验证了这一假设并发布了高质量训练数据集。以GPT‑4为例，开发超万亿参数模型成本超1亿美元，而小模型如专攻法律领域者，不到100亿参数、成本低于1000万美元，且算力消耗更少。纳德拉曾表示，Phi模型系列规模仅为OpenAI大模型的1/100，但许多任务表现几乎一样出色。

此外，谷歌及AI初创公司Mistral、Anthropic、Cohere今年也发布了较小模型。6月苹果公布AI路线图，计划使用小模型以便完全在手机上运行软件，提升速度与安全性。对于许多任务（如总结文档或生成图像），大模型可能大材小用。Transformer开山之作作者之一Illia Polosukhin表示，计算2+2不应进行千万亿次运算。

不过，科技巨头并未放弃大模型。苹果在今年WWDC上宣布在Siri中植入ChatGPT以执行撰写邮件等复杂任务。毕竟通往终极AGI/ASI，参数规模扩大与智能增长成正比。

参考资料：

https://venturebeat.com/ai/apple-shows-off-open-ai-prowess-new-models-outperform-mistral-and-hugging-face-offerings/

https://www.wsj.com/tech/ai/for-ai-giants-smaller-is-sometimes-better-ef07eb98?mod=tech_lead_story

https://the-decoder.com/ai-models-might-need-to-scale-down-to-scale-up-again/

上一篇：夏天太热怎么办：AI 为降温材料发现提速数千倍你的手机电脑或许再也不发烫了下一篇：半年过去:AI视频卷到哪儿了？

OpenAI掀小模型血战 苹果DCLM强势登场 碾压Mistral 7B全开源

DCLM系列全开源

既要Scaling Law，又要SLM

OpenAI掀小模型血战苹果DCLM强势登场碾压Mistral 7B全开源