瘦身不降智!大模型训推效率提升30%,京东大模型开发计算研究登Nature旗下期刊 下午4时 2025/05/21 作者 量子位 京东探索研究院提出Omniforce系统,通过模型蒸馏、数据治理等创新方法提升大模型效率70%,实现云边协同部署。
DeepSeek开源周第四弹!3大猛料一口气发完,梁文锋亲自贡献 下午4时 2025/02/27 作者 智东西 DeepSeek开源三大优化策略:DualPipe、EPLB和profile-data。DualPipe实现并行算法减少训练空闲时间;EPLB平衡负载避免GPU闲置。
从Deepseek R1和NSA算法谈谈个人的一些反思 下午11时 2025/02/19 作者 极市干货 .9和9.11谁大更考验Reasoning模型, 似乎很多大模型的答案都做的不好. DeepSeek