大模型评估排障指南 | 关于可复现性 2025年5月13日14时 作者 Hugging Face 关于复现模型结果的挑战,文章探讨了代码库不一致、实现细节不同(如随机种子和评估指标)、归一化方式差异、prompt格式变化等因素导致的结果差异。
Sebastian Raschka长文:DeepSeek-R1、o3背后,RL推理训练正悄悄突破上限 2025年4月21日16时 作者 机器之心 了?大语言模型(LLM)推理需要强化学习(RL)来「加 buff」。 著名 AI 研究者和博主 Se