预训练阶段归档 - 每时AI

张俊林：Grok 3是否意味着大力出奇迹的大模型法则仍然成立？

下午2时 2025/02/20 作者机器学习算法与自然语言处理

业研究人员。
社区的愿景
是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进

DeepSeek并非完美，训练过程存在“深度诅咒”

上午8时 2025/02/12 作者 AIGC开放社区

文章介绍了LayerNorm Scaling解决大语言模型深层训练不足的问题，并通过实验验证了其在提升模型性能和训练效率方面的有效性。

我们正在大模型产品面前“裸奔”么

下午12时 2025/01/13 作者硅星人Pro

作者
｜
周一笑
邮箱
｜
zhouyixiao@pingwest.com
每天，全球有数亿人在向A