任意Prompt就能给大模型实时排名!竞技场新玩法,还能自动找最佳AI来作答

竞技场(lmarena.ai)推出的Prompt-to-leaderboard(P2L)功能,根据输入的Prompt实时排名大模型。通过实验证明其在预测人类偏好方面优于传统的全局排行榜方法,并能更准确评估模型表现。

大模型训练或无需“纯净数据”!北大团队新研究:随机噪声影响有限,新方法让模型更抗噪

北大团队研究发现,在训练数据中加入随机噪音并不会严重影响语言模型的性能。即使高达20%的数据被污染,模型的预测损失仅上升约1%,并提出局部梯度匹配方法进一步提升其鲁棒性。

Grok 3疯狂实测,满屏都是马斯克!3D乒乓球破屏,火星殖民实时播报

自马斯克发布Grok 3以来,其热度持续不减。它不仅是一个聊天机器人,还能生成3D游戏、处理代码审查及构建各种应用等。网友分享了13个实测案例展示了其惊人表现,包括伸出屏幕外的3D乒乓球游戏、非自然尖叫声以及几分钟内完成的各种应用和复杂游戏。