MC-Bench项目归档

高中生用「我的世界」评测SOTA模型！Claude暂时领先，DeepSeek紧随其后

下午4时 2025/03/29 作者新智元

新智元报道编辑：定慧AI模型在基准测试中表现优秀，但在人类容易解决的问题上却频频出错。创意评测兴起，如MC-Bench利用Minecraft方块来评估模型能力，普通用户也能参与评测。这种测评范式更贴近人类对AI直观和创造力的实际期待。