董小姐造假之后,Chatbot Arena被爆信任危机!
开源AI研究者质疑Chatbot Arena排行榜,指存在暗箱操作和数据获取不平等现象。研究发现大公司享有未公开的测试特权,并从多个变体中挑选表现最佳版本发布,导致排名失真。研究还指出数据分配极不均衡,对开放模型支持不足。这些行为可能误导AI社区,需进行改革以恢复公平性和可信度。
开源AI研究者质疑Chatbot Arena排行榜,指存在暗箱操作和数据获取不平等现象。研究发现大公司享有未公开的测试特权,并从多个变体中挑选表现最佳版本发布,导致排名失真。研究还指出数据分配极不均衡,对开放模型支持不足。这些行为可能误导AI社区,需进行改革以恢复公平性和可信度。
近日,谷歌发布了一项高难度基准BIG-Bench Extra Hard(BBEH),旨在评估AI模型的高阶推理能力。该基准包含了23个任务,并将每个任务替换为更难的任务,覆盖更多方面的技能需求。如o3-mini (high)得分为44.8分不及格,而其它模型得分不超过10分。
造就了不同品种广泛分布在世界各地的生命奇迹;同样人也需要通过双耳沉浸式享受电影视听盛宴、判断驾驶环境