高中生用「我的世界」评测SOTA模型!Claude暂时领先,DeepSeek紧随其后

新智元报道编辑:定慧AI模型在基准测试中表现优秀,但在人类容易解决的问题上却频频出错。创意评测兴起,如MC-Bench利用Minecraft方块来评估模型能力,普通用户也能参与评测。这种测评范式更贴近人类对AI直观和创造力的实际期待。