测试数据混入归档

大瓜来了！Llama 4 陷刷榜争议：“内部员工”发帖控诉，测评版本被指特供？

下午4时 2025/04/07 作者 AI寒武纪

一篇来自‘一亩三分地’论坛的帖子爆料称Meta的新大模型Llama 4训练效果未达开源SOTA基准，公司采取混入测试集数据以满足目标的做法引发争议。此外，TechCrunch质疑Meta在LM Arena排行榜上提交的版本可能与公开版不同，并认为这种行为可能误导开发者。