
MLNLP学术Talk是MLNLP社区举办的学术交流活动,旨在邀请一线青年学者分享最前沿的技术,期待最精彩的思想火花碰撞。
本期MLNLP学术Talk邀请了M-A-P成员杜昕润在2025年3月29日10:00-11:00为我们带来“SuperGPQA:探索LLMs知识与推理能力的边界”的主题报告。详细信息如下:

讲者简介

个人介绍:
杜昕润,大模型开源组织M-A-P成员。研究方向为大语言模型预训练与评测。作为核心贡献者参与过首个工业级全透明开源大语言模型MAP-Neo的训练工作,构建细粒度领域Web语料库FineFineWeb,大型研究生水平学科benchmark SuperGPQA。
报告摘要
SuperGPQA是一个用于评估大型语言模型(LLMs)在广泛专业学科领域内研究生水平知识和推理能力的综合评估基准。SuperGPQA覆盖了285个不同的专业学科领域,涵盖了此前未被充分评估的轻工业、农业、服务导向型学科等领域。本报告旨在通过分享SuperGPQA的构建过程,以及总结实施过程中获得的重要经验和教训,为未来类似规模研究的开展提供一些方法指导和实践参考。
主持人介绍

郑天昱, TikTok研究员。研究兴趣为 Code AI、RL等,在NeurIPS、CVPR、ICLR、COLM等顶级会议发表二十余篇论文。代表作有:OpenCodeInterpreter / Mammoth2 / MMMU / MAP-Neo
直播平台
视频号
B站


关于我们

(文:机器学习算法与自然语言处理)