DeepSeek再度领先:V3-0324现在是得分最高的非推理模型


这是开放权重模型首次成为领先的非推理模型,这对开源来说是一个里程碑。


DeepSeek V3-0324 在人工智能分析智能指数中跃升了 7 分,现在领先于所有其他非推理模型。它在智能指数中落后于 DeepSeek 自己的 R1,以及来自 OpenAI、Anthropic 和阿里巴巴的其他推理模型,但这并没有削弱这一成就的令人印象深刻。非推理模型可以立即回答,而无需花时间“思考”,这使得它们在延迟敏感的用例中很有用。


三个月前,DeepSeek 发布了 V3,从此开源 AI 有了一个新的领导者——那时 V3 接近领先的 Anthropic 和谷歌的专有模型,但并没有超越它们。


如今,DeepSeek 不仅发布了最佳开源模型 – DeepSeek 正在推动非推理开放权重模型的发展,超越所有专有非推理模型,包括 Gemini 2.0 Pro、Claude 3.7 Sonnet 和 Llama 3.3 70B。此版本可以说比 R1 更令人印象深刻 – 并且可能表明 R2 将是另一个重大飞跃。


大多数其他细节与 2024 年 12 月版本的 DeepSeek V3 相同,包括:

➤ 上下文窗口:128k(DeepSeek 的第一方 API 限制为 64k)

➤ 总参数:671B(需要 >700GB 的 GPU 内存才能以原生 FP8 精度运行 – 仍然不是你可以在家运行的东西!)

➤ 活动参数:37B

➤ 原生 FP8 精度

➤ 仅限文本 – 没有多模态输入或输出

➤ MIT 许可证



DeepSeek V3-0324 标志着开放权重模型首次成为领先的非推理模型。



与领先的推理模型(包括 DeepSeek 自己的 R1)相比,DeepSeek V3-0324 仍然落后。但对于许多用途而言,让推理模型在回答之前“思考”所带来的延迟增加使得它们无法使用。



https://x.com/ArtificialAnlys/status/1904467255083348244








(文:PyTorch研习社)

欢迎分享

发表评论