这是开放权重模型首次成为领先的非推理模型,这对开源来说是一个里程碑。
DeepSeek V3-0324 在人工智能分析智能指数中跃升了 7 分,现在领先于所有其他非推理模型。它在智能指数中落后于 DeepSeek 自己的 R1,以及来自 OpenAI、Anthropic 和阿里巴巴的其他推理模型,但这并没有削弱这一成就的令人印象深刻。非推理模型可以立即回答,而无需花时间“思考”,这使得它们在延迟敏感的用例中很有用。
三个月前,DeepSeek 发布了 V3,从此开源 AI 有了一个新的领导者——那时 V3 接近领先的 Anthropic 和谷歌的专有模型,但并没有超越它们。
如今,DeepSeek 不仅发布了最佳开源模型 – DeepSeek 正在推动非推理开放权重模型的发展,超越所有专有非推理模型,包括 Gemini 2.0 Pro、Claude 3.7 Sonnet 和 Llama 3.3 70B。此版本可以说比 R1 更令人印象深刻 – 并且可能表明 R2 将是另一个重大飞跃。
大多数其他细节与 2024 年 12 月版本的 DeepSeek V3 相同,包括:
➤ 上下文窗口:128k(DeepSeek 的第一方 API 限制为 64k)
➤ 总参数:671B(需要 >700GB 的 GPU 内存才能以原生 FP8 精度运行 – 仍然不是你可以在家运行的东西!)
➤ 活动参数:37B
➤ 原生 FP8 精度
➤ 仅限文本 – 没有多模态输入或输出
➤ MIT 许可证

DeepSeek V3-0324 标志着开放权重模型首次成为领先的非推理模型。


https://x.com/ArtificialAnlys/status/1904467255083348244
(文:PyTorch研习社)