人类交互评估归档 - 每时AI

想纠正LMM犯错？没用！NUS华人团队：最强o1反馈修正率不到50%

2025年3月16日23时作者新智元

新加坡国立大学华人团队提出InterFeedback框架，评估大规模多模态模型在人类反馈下的表现，结果显示最先进的LMM通过人类反馈纠正结果的比例不到50%。