随机种子归档 - 每时AI

大模型评估排障指南 | 关于可复现性

2025年5月13日14时作者 Hugging Face

关于复现模型结果的挑战，文章探讨了代码库不一致、实现细节不同（如随机种子和评估指标）、归一化方式差异、prompt格式变化等因素导致的结果差异。

Sebastian Raschka长文：DeepSeek-R1、o3背后，RL推理训练正悄悄突破上限

2025年4月21日16时作者机器之心

了？大语言模型（LLM）推理需要强化学习（RL）来「加 buff」。
著名 AI 研究者和博主 Se