DeepSeek超越ChatGPT占据App Store榜首,深度思考模式匹配学习场景

DeepSeek在美区和中国区App Store免费榜上超越ChatGPT并获得好评。其模型在多项测试中表现优异,特别适合教育领域使用。DeepSeek-R1具有高性价比、技术创新及开源特性,能够提供深度思考过程的细致回答,并且能辅助教师或家长出题,但识别能力有待提升。

Infra视角下的DeepSeek-V3,到底有多强?

DeepSeek发布的大规模MoE模型DeepSeek-V3在两千张H800上仅用两个月训练完成,实现了显著的性能提升。通过MLA和MoE结构改进以及辅助损失无化策略等技术优化,使得模型稀疏程度提高,同时引入了64路专家并行、流水线并行及数据并行等高效部署方案,在推理阶段取得了较好的效果。