多轮参照解析归档

让GPT-4.1「头皮发麻的考试」！OpenAI给大模型上强度，AI能赢吗？

2025年5月4日23时作者新智元

新智元报道
编辑：定慧
OpenAI发布的新基准测试数据集MRCR，旨在检验模型在超长上下文中精准定位特定信息的能力。这比「大海捞针」的简单任务更具挑战性。通过MRCR测试，GPT-4.1展示了其强大的上下文理解和处理能力，但随着上下文长度和复杂度增加，准确性会迅速下降。