Deepseek v3正式发布:用557.6万美金超越Claude 3.5 Sonnet的惊人杰作

2024年12月26日,DeepSeek AI发布其最新大型语言模型DeepSeek-V3,每秒处理60个token,采用FP8训练、MoE架构、无辅助损失负载均衡策略和多令牌预测目标等技术。该模型仅花费不到600万美金完成训练,并且支持高效推理与本地部署。