模型评估归档 - 每时AI

大模型评估排障指南 | 关于可复现性

2025年5月13日14时作者 Hugging Face

关于复现模型结果的挑战，文章探讨了代码库不一致、实现细节不同（如随机种子和评估指标）、归一化方式差异、prompt格式变化等因素导致的结果差异。