任意Prompt就能给大模型实时排名!竞技场新玩法,还能自动找最佳AI来作答

竞技场(lmarena.ai)推出的Prompt-to-leaderboard(P2L)功能,根据输入的Prompt实时排名大模型。通过实验证明其在预测人类偏好方面优于传统的全局排行榜方法,并能更准确评估模型表现。