明星AI独角兽Mistral AI亮出大模型新王炸:代码和数学能力超群
法国AI初创企业Mistral AI日前发布了两款全新模型:面向程序员的代码生成模型Codestral Mamba 7B,以及专攻数学推理与科学发现的Mathstral 7B。这两款模型分别从推理速度和上下文长度角度提升了性能,进一步丰富了其开源AI模型阵容。
Codestral Mamba 7B凭借更快的推理速度与超长上下文处理能力脱颖而出,即便输入文本较长,也能保持快速响应。该模型最多可处理256000个token的输入,这一容量是GPT-4o的两倍。
Mathstral 7B则配备32K上下文窗口,基于Apache 2.0开源许可证发布。它在需要更多推理时间计算的基准测试中表现优于其他数学推理模型,并且支持微调功能。
一、代码生成模型能够处理更长的上下文
资金雄厚的法国AI初创公司Mistral AI凭借其强大的开源AI模型而闻名,如今在其不断增长的大语言模型(LLM)系列中新增了两款产品:一款基于数学的模型,以及一款面向程序员和开发者的代码生成模型,后者基于去年底由其他研究人员开发的新架构Mamba。
Mamba通过简化注意力机制,提升了当前主流LLM所采用的Transformer架构的效率。基于Mamba的模型不同于常见的Transformer模型,具备更快的推理速度和更大的上下文窗口。包括AI21在内的其他公司与开发者已发布了基于该架构的新AI模型。
如今,借助这一新架构,Mistral AI将其命名为Codestral Mamba 7B,即便在输入文本较长时也能快速响应。Codestral Mamba尤其适用于代码生产力场景,特别是本地化的编程项目。
Mistral AI对该模型进行了测试,该模型将在Mistral AI的la Plateforme API上免费提供使用,可处理多达256000个token的输入,是OpenAI的GPT-4o的两倍。
Mistral AI指出,在HumanEval等基准测试中,Codestral Mamba的表现优于竞品开源模型CodeLlama 7B、CodeGemma-1.17B和DeepSeek。

▲(图源:Mistral AI)
开发者可以从其GitHub仓库与HuggingFace修改并部署Codestral Mamba。该模型将通过开源Apache 2.0许可证提供。
Mistral AI声称,早期版本的Codestral在性能上优于CodeLlama 70B和DeepSeek Coder 33B等其他代码生成器。
代码生成与编程助手已成为AI模型广泛应用的领域,GitHub的Copilot(由OpenAI提供支持)、亚马逊的CodeWhisperer以及Codenium等平台日益流行。
二、数学推理模型能力超群,还具备微调功能
Mistral AI推出的第二个模型是Mathstral 7B,这是一个专为数学推理与科学发现设计的AI模型。Mistral AI通过与Project Numina合作开发了Mathstral。
Mathstral拥有32K上下文窗口,并采用Apache 2.0开源许可证。Mistral AI称,该模型在所有专为数学推理设计的模型中表现最优。在需要更多推理时间计算的基准上,它能获得“明显更好的结果”。用户可直接使用或对模型进行微调。
Mistral AI在一篇博文中表示:“Mathstral是另一个例证,展示了针对特定目的构建模型时能够实现卓越的性能——这也是我们在la Plateform中积极推广的开发理念,尤其是其新的微调功能。”

▲(图源:Mistral AI)
Mathstral可通过Mistral AI的la Plateforme和HuggingFace访问。
Mistral AI倾向于在开源系统上提供其模型,该公司一直在与OpenAI和Anthropic等其他AI开发者竞争。
该公司最近在B轮融资中筹集了6.4亿美元,估值接近60亿美元,并获得了微软和IBM等科技巨头的投资。
结语:大模型性能之战卷出新高度
从产业角度看,Mistral AI的新模型凸显了AI工具向专业化发展的趋势。通过提供Mistral 7B和Codestral Mamba 7B等强大且可访问的模型,Mistral AI正成为AI领域的重要参与者,推动创新与实用应用的落地。同时,这些模型也强调了开源AI的重要性,鼓励技术社区内的合作与透明度,进一步加速了AI大模型领域的迭代进程。