DeepSeek再度领先：V3-0324现在是得分最高的非推理模型

这是开放权重模型首次成为领先的非推理模型，这对开源来说是一个里程碑。

DeepSeek V3-0324 在人工智能分析智能指数中跃升了 7 分，现在领先于所有其他非推理模型。它在智能指数中落后于 DeepSeek 自己的 R1，以及来自 OpenAI、Anthropic 和阿里巴巴的其他推理模型，但这并没有削弱这一成就的令人印象深刻。非推理模型可以立即回答，而无需花时间“思考”，这使得它们在延迟敏感的用例中很有用。

三个月前，DeepSeek 发布了 V3，从此开源 AI 有了一个新的领导者——那时 V3 接近领先的 Anthropic 和谷歌的专有模型，但并没有超越它们。

如今，DeepSeek 不仅发布了最佳开源模型 – DeepSeek 正在推动非推理开放权重模型的发展，超越所有专有非推理模型，包括 Gemini 2.0 Pro、Claude 3.7 Sonnet 和 Llama 3.3 70B。此版本可以说比 R1 更令人印象深刻 – 并且可能表明 R2 将是另一个重大飞跃。

大多数其他细节与 2024 年 12 月版本的 DeepSeek V3 相同，包括：

➤ 上下文窗口：128k（DeepSeek 的第一方 API 限制为 64k）

➤ 总参数：671B（需要 >700GB 的 GPU 内存才能以原生 FP8 精度运行 – 仍然不是你可以在家运行的东西！）

➤ 活动参数：37B

➤ 原生 FP8 精度

➤ 仅限文本 – 没有多模态输入或输出

➤ MIT 许可证

DeepSeek V3-0324 标志着开放权重模型首次成为领先的非推理模型。

与领先的推理模型（包括 DeepSeek 自己的 R1）相比，DeepSeek V3-0324 仍然落后。但对于许多用途而言，让推理模型在回答之前“思考”所带来的延迟增加使得它们无法使用。

https://x.com/ArtificialAnlys/status/1904467255083348244

（文：PyTorch研习社）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

发表评论取消回复