DeepSeek团队
GPU效率暴涨!DeepSeek开源DeepGEMM,仅300行代码
DeepSeek开源高效FP8精度矩阵乘法库DeepGEMM,支持NVIDIA Hopper架构,在密集和分组矩阵乘法下性能提升显著,使用方便,支持广泛应用场景。
华为突围:910C芯片性能达H100的60%!DeepSeek 已验证
华为Ascend 910C芯片性能达到NVIDIA H100的60%,展示了中国在AI芯片制造上的实力。尽管面临重重限制,华为仍能突破重围,预示着未来AI芯片格局或将发生重大变化。
刚刚!DeepSeek 再发新模型Janus-Pro 7B,统一多模态理解与生成
DeepSeek团队发布创新型多模态框架Janus-Pro,支持384×384图像输入,表现超越现有统一模型,在GenEval和DPG-Bench测试中胜过DALL-E 3和Stable Diffusion。
DeepSeek超越ChatGPT占据App Store榜首,深度思考模式匹配学习场景
DeepSeek在美区和中国区App Store免费榜上超越ChatGPT并获得好评。其模型在多项测试中表现优异,特别适合教育领域使用。DeepSeek-R1具有高性价比、技术创新及开源特性,能够提供深度思考过程的细致回答,并且能辅助教师或家长出题,但识别能力有待提升。
Infra视角下的DeepSeek-V3,到底有多强?
DeepSeek发布的大规模MoE模型DeepSeek-V3在两千张H800上仅用两个月训练完成,实现了显著的性能提升。通过MLA和MoE结构改进以及辅助损失无化策略等技术优化,使得模型稀疏程度提高,同时引入了64路专家并行、流水线并行及数据并行等高效部署方案,在推理阶段取得了较好的效果。