DeepSeek效应初现:Grok-3补刀ChatGPT,OpenAI已在ICU? 下午4时 2025/03/01 作者 新智元 :预训练Scaling L aw不是OpenAI的护城河。将来95%的算力将用在推理,而不是现在的训
目前为止分析DeepSeek最全面的文章了 下午11时 2025/02/03 作者 NLP工程化 DeepSeek-V2 采用 DeepSeekMoE 架构优化训练成本和推理效率,引入稀疏激活的专家网络。