57个任务归档

多样任务真实数据，大模型在线购物基准Shopping MMLU开源｜NeurIPS&KDD Cup 2024

下午12时 2024/11/20 作者每时AI

基于亚马逊真实购物数据，港科大与圣母大学联合构建了大规模评测基准Shopping MMLU，评估大语言模型在线购物领域的应用潜力。该基准覆盖多项任务及能力，强调多任务学习、少样本学习和特定领域知识理解的重要性，并且已被公开用于研究和应用。