OpenAI掀小模型血战 苹果DCLM强势登场 碾压Mistral 7B全开源

时间:2026-07-05 08:43:49 来源:互联网

小模型竞争日趋白热化,继GPT‑4o mini与Mistral NeMo发布后,苹果携DCLM系列开源模型正式入局。该系列包含70亿与14亿两种参数规模,其中70亿版本性能超越Mistral‑7B,逼近Llama 3与Gemma,并且完全开源。

img_6a49a8c2f0a0030.webp

据苹果ML小组研究科学家Vaishaal Shankar(亦是DCLM研发人员)介绍,这是迄今为止性能最佳的“真正开源”模型,不仅提供权重与训练代码,还基于开放数据集DCLM‑Baseline。

img_6a49a8c30601d31.webp

相比模型本身,DCLM树立的“真正开源”典范更受关注。与多数科技巨头仅闭源模型或只开源代码/权重的做法不同,苹果的慷慨之举赢得了网友盛赞。

img_6a49a8c31363f32.webp

此外,Shankar预告后续还将上线模型中间检查点与优化器状态。

img_6a49a8c42378633.webp

难道LLM开源社区的春天真的到来了吗?

img_6a49a8c42f29134.webp

DCLM系列全开源

目前HuggingFace上已发布全部模型权重,模型卡涵盖了关键信息。

img_6a49a8c43aa5835.webp

https://huggingface.co/apple/DCLM-7B

DCLM-7B采用decoder‑only架构,基于PyTorch与OpenLM框架预训练。训练数据取自总量240T的DCLM,其中DCLM‑baseline数据集共4T token,DCLM‑7B进一步过滤出2.5T用于训练。

img_6a49a8c443b8636.webp

上下文长度为2048,小于Mistral 7B与Gemma 2 9B的8k长度。

性能方面,作者使用评估套件LLM Foundry测试了53个基准任务。除MMLU分数外,还自定义了“核心准确率”与“扩展准确率”两个指标——前者为包括HellaSwag、ARC‑E在内的22个任务中心准确率均值,后者涵盖全部53个任务。

尽管使用的数据并非最多,但在同等大小的开放数据模型(权重与数据集均开源)中,DCLM三项指标均达最佳。

img_6a49a8c44e7ca37.webp

三列基准分数从左到右分别是:核心、MMLU、扩展

相较此前SOTA MAP‑Neo模型,DCLM‑7B在5‑shot MMLU任务上准确率达63.7%,提升6.6个百分点,同时训练计算量减少40%。但与权重开源、数据集闭源的模型相比效果稍逊:DCLM与Phi‑3差距明显,与Mistral‑7B‑v0.3或Gemma 8B大致相当。

img_6a49a8c458d5438.webp

研究人员发现,若使用同一数据集额外100B数据进行训练并将上下文长度扩展至8k,核心与扩展基准分数进一步上升,但MMLU不变。

img_6a49a8c46813439.webp

该结果全面超越Mistral 7B‑v0.3。此外,HuggingFace还发布了7B模型的指令微调版本,在数学推理任务GSM8K上分数从2.1飙升至52.5。

img_6a49a8c473b7b310.webp

https://huggingface.co/apple/DCLM-7B-8k

除7B版本外,1.4B版本同步上线,训练数据量反而比7B版本多出0.1T。

img_6a49a8c47e543311.webp

https://huggingface.co/TRI-ML/DCLM-1B

与HuggingFace近期发布的SmolLM相比,DCLM‑1B性能明显更优,5‑shot MMLU分数提升11.9%。同时该模型在MMLU上41.9的得分高于Qwen‑1.5B的37.87与Phi‑1.5B的35.90。

img_6a49a8c4890f4312.webp

7B模型落后于他人,反而1.4B版本实现反超,看来小模型才是苹果的强项。值得注意的是,7B模型仅在Apple示例代码许可(ASCL)下使用,但1.4B版本以Apache 2.0发布,允许商业使用、分发与修改。

提及DCLM系列,就必须说到其基础——DataComp基准。该论文于6月17日首发,共同一作Jeffrey Li、Alex Fang与共同最后作者Vaishaal Shankar均为苹果DCLM研发人员。论文详细阐述了数据集构建过程及DCLM模型相关细节。Vaishaal Shankar表示将很快发布更新版,提供更多预训练技术细节。

img_6a49a8c49447b313.webp

论文地址:https://arxiv.org/pdf/2406.11794

DataComp的思路与常规做法相反——固定模型,从240T数据池中过滤出最佳数据。这恰好与科技巨头的研发思路一致:对于LLM性能,预训练数据正变得比模型架构与权重更重要。毕竟Llama、Gemma、Phi等“开源”模型均只放权重、不公布数据。

既要Scaling Law,又要SLM

对AI巨头而言,模型并非越大越好。

img_6a49a8c4b48c3314.webp

AI社区一直不缺小模型,如微软Phi系列多次迭代,谷歌6月底更新的Gemma 2 7B,以及本周OpenAI发布的GPT‑4o mini、Mistral AI与英伟达联手推出的Mistral NeMo、HuggingFace的SmolLM等,让小模型领域热度再升。正如OpenAI研究员所言,“我们比任何人都喜欢训练大模型,但也知道如何训练小模型”。

img_6a49a8c4c5579315.webp

小模型优势在于成本低、速度快、更专业,通常用少量数据针对特定任务训练。大模型变小再扩大规模,可能是未来趋势之一。

img_6a49a8c4cfb29316.webp

前两日GPT‑4o mini发布时,Andrej Karpathy发长推表达了类似观点。

img_6a49a8c4e0337317.webp

他认为模型尺寸竞争将“反向加剧”——不是越大越好,而是越轻巧越好。当前LLM沦为“巨兽”是因为训练过程浪费,我们基本在要求模型记住整个互联网。但对于小模型,训练目标已变:如何从更少数据中学到更多。我们需要先让模型变大,再变小,因为“巨兽”能将数据重构为理想的合成形式,从而获得“完美训练集”再喂给小模型。

马斯克也赞同此观点。Karpathy描述的模型改进阶梯正是特斯拉曾走过的路。

img_6a49a8c4eb46a318.webp

2023年4月Sam Altman曾宣布大模型时代终结,近期采访中他确认数据质量是AI训练的关键成功因素。

img_6a49a8c502e46319.webp

微软研究人员在开发Phi模型时提出类似假设,Hugging Face的AI研究人员近期也验证了这一假设并发布了高质量训练数据集。以GPT‑4为例,开发超万亿参数模型成本超1亿美元,而小模型如专攻法律领域者,不到100亿参数、成本低于1000万美元,且算力消耗更少。纳德拉曾表示,Phi模型系列规模仅为OpenAI大模型的1/100,但许多任务表现几乎一样出色。

img_6a49a8c514d3a320.webp

此外,谷歌及AI初创公司Mistral、Anthropic、Cohere今年也发布了较小模型。6月苹果公布AI路线图,计划使用小模型以便完全在手机上运行软件,提升速度与安全性。对于许多任务(如总结文档或生成图像),大模型可能大材小用。Transformer开山之作作者之一Illia Polosukhin表示,计算2+2不应进行千万亿次运算。

不过,科技巨头并未放弃大模型。苹果在今年WWDC上宣布在Siri中植入ChatGPT以执行撰写邮件等复杂任务。毕竟通往终极AGI/ASI,参数规模扩大与智能增长成正比。

img_6a49a8c522c75321.webp

参考资料:

https://venturebeat.com/ai/apple-shows-off-open-ai-prowess-new-models-outperform-mistral-and-hugging-face-offerings/

https://www.wsj.com/tech/ai/for-ai-giants-smaller-is-sometimes-better-ef07eb98?mod=tech_lead_story

https://the-decoder.com/ai-models-might-need-to-scale-down-to-scale-up-again/