主打低延迟Agent,Mistral Small 3开源,24B媲美70B!

HF热门排行榜上出现了一款24B新模型Mistral Small 3,由Mistral AI开源,主打轻量化、低延迟、以Agent为中心
Mistral Small 3 并未使用强化学习(RL)或合成数据进行训练,因此它比像 Deepseek R1(一个出色且互补的开源技术)这样的模型更早地处于模型生产流程中。

Mistral Small 3 在70B以下的“小型”大型语言模型类别中树立了新的标杆,在性能上能够与更大的模型(例如 Llama 3.3 70B 或 Qwen 32B)竞争,并且是像 GPT4o-mini 这样的封闭专有模型的优秀开源替代品。

Mistral Small 3 的性能与 Llama 3.3 70B 指令模型相当,但在相同的硬件上速度要快 3 倍以上
Mistral Small可以本地部署,经过量化后,它可以完美适配单个RTX 4090或32GB内存的MacBook,是一个极其“知识密集型”的模型。它非常适合以下场景:快速响应的对话Agent、低延迟功能调用、特定领域微调。
关键特性:
  • 多语言支持:支持多种语言,包括英语、法语、德语、西班牙语、意大利语、中文、日语、韩语、葡萄牙语、荷兰语和波兰语。

  • 以Agent为中心提供顶级的Agent能力,支持原生功能调用和JSON输出

  • 高级推理:具有最先进的对话和推理能力。

  • Apache 2.0许可:开放许可,允许用于商业和非商业目的的使用和修改。

  • 上下文窗口:32k上下文窗口。

  • 系统提示:对系统提示有很强的遵循和支持。

  • 分词器:使用Tekken分词器,词汇量为131k。

人类评估

评估对象包括超过 1k 的专有编码和通用提prompts
指令性能
指令微调模型在代码、数学、常识和指令遵循基准测试中,与比其大三倍的开放权重模型以及专有的 GPT4o-mini 模型具有竞争力。
https://mistral.ai/news/mistral-small-3/https://hf-mirror.com/mistralai/Mistral-Small-24B-Instruct-2501

(文:PaperAgent)

欢迎分享

发表评论