大瓜来了!Llama 4 陷刷榜争议:“内部员工”发帖控诉,测评版本被指特供?
一篇来自‘一亩三分地’论坛的帖子爆料称Meta的新大模型Llama 4训练效果未达开源SOTA基准,公司采取混入测试集数据以满足目标的做法引发争议。此外,TechCrunch质疑Meta在LM Arena排行榜上提交的版本可能与公开版不同,并认为这种行为可能误导开发者。
一篇来自‘一亩三分地’论坛的帖子爆料称Meta的新大模型Llama 4训练效果未达开源SOTA基准,公司采取混入测试集数据以满足目标的做法引发争议。此外,TechCrunch质疑Meta在LM Arena排行榜上提交的版本可能与公开版不同,并认为这种行为可能误导开发者。