超过o1-mini、逼近o3-mini,DeepSeek-R1在新的贪吃蛇基准上拿下1801分
DeepSeek-R1 在 ARC-AGI 上的表现不及 OpenAI 的 o3 系列模型,但通过 SnakeBench 对抗性基准测试,在 1v1 贪吃蛇比赛中击败了 o1-mini,并接近 o3-mini。
DeepSeek-R1 在 ARC-AGI 上的表现不及 OpenAI 的 o3 系列模型,但通过 SnakeBench 对抗性基准测试,在 1v1 贪吃蛇比赛中击败了 o1-mini,并接近 o3-mini。