张俊林:Grok 3是否意味着大力出奇迹的大模型法则仍然成立? 下午2时 2025/02/20 作者 机器学习算法与自然语言处理 业研究人员。 社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进
DeepSeek并非完美,训练过程存在“深度诅咒” 上午8时 2025/02/12 作者 AIGC开放社区 文章介绍了LayerNorm Scaling解决大语言模型深层训练不足的问题,并通过实验验证了其在提升模型性能和训练效率方面的有效性。
张俊林从Deepseek R1看Scaling Law的未来 下午12时 2025/02/10 作者 AI科技大本营 续是推动大模型快速发展的第一动力,我自己一般是通过它来对大模型未来发展悲观乐观做总体判断的,只要目前