LONGPROC归档 - 每时AI

打脸！GPT-4o输出长度8k都勉强，陈丹琦团队新基准测试：所有模型输出都低于标称长度

下午11时 2025/01/15 作者量子位

最新研究提出LONGPROC基准测试评估长上下文语言模型处理复杂信息并生成回复的能力。尽管主流模型声称能处理32K tokens，但在实际应用中的表现并不尽如人意，尤其是对于复杂的多任务生成任务。