Llama 4在测试集上训练?内部员工、官方下场澄清,LeCun转发

Meta 新发布的Llama 4模型在实战中表现不佳,引发了广泛质疑。尽管其在大模型竞技场上的排名不错,但在实际应用中的效果却不如人意。部分用户反馈称该模型存在多方面的问题,如生成代码、抽象推理等能力不足。为了澄清疑虑,Meta 发布了Llama 4的相关测试数据,并承认之前的宣传策略可能存在问题。

Llama 4爆料大反转,没在测试集上训练!华人员工实名辟谣,LeCun出面救火

Meta针对Llama 4训练作弊的爆料迅速反击,但模型的实际表现却频频被吐槽。Ahmad Al-Dahle澄清不同平台间质量差异是因为开源行为,Yann LeCun力挺模型。尽管存在争议,Llama 4在某些测试中的表现令人失望。

Meta 你摊上事了!Llama 4 vs DeepSeek:谁才是最强开源模型?

Meta 新发布的Llama 4因基准测试成绩亮眼但遭用户质疑,称其实际表现不佳。Meta 因疑似数据污染技术而受到批评。此外,Meta的Llama 4 Maverick模型在多个任务如前端开发、逻辑推理等方面的表现也不尽人意。

反击DeepSeek失败!Llama 4效果不好,Meta承认有问题

今天凌晨
1
点半,Meta生成式AI领导者Ahmad Al-Dahle在社交平台回应了前天开源的Llama 4被质疑的问题。Meta否认在测试集上进行预训练,并表示会修复漏洞提升模型性能。然而,国内媒体以Meta新开源的Llama 4 Maverick代码能力比肩其V3模型为噱头写标题。Meta随后发布声明,澄清质量差异因优化需要时间,并称不会在测试集上预训练。多位网友质疑Llama 4的实际表现低于预期,认为Meta可能在测试中进行了篡改。

Llama 4训练作弊爆出惊天丑闻!AI大佬愤而辞职,代码实测崩盘全网炸锅

Meta发布的新模型Llama 4引发质疑,代码能力不佳且存在作弊嫌疑。内部员工爆料称在训练过程中曾混入多个基准测试集以获得良好表现。多位AI研究人员指出Llama 4的表现远逊于SOTA模型,网友普遍对其失望。