杜昕润@M-A-P：SuperGPQA：探索LLMs知识与推理能力的边界

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

MLNLP学术Talk是MLNLP社区举办的学术交流活动，旨在邀请一线青年学者分享最前沿的技术，期待最精彩的思想火花碰撞。

本期MLNLP学术Talk邀请了M-A-P成员杜昕润在2025年3月29日10:00-11:00为我们带来“SuperGPQA：探索LLMs知识与推理能力的边界”的主题报告。详细信息如下：

讲者简介

个人介绍：

杜昕润，大模型开源组织M-A-P成员。研究方向为大语言模型预训练与评测。作为核心贡献者参与过首个工业级全透明开源大语言模型MAP-Neo的训练工作，构建细粒度领域Web语料库FineFineWeb，大型研究生水平学科benchmark SuperGPQA。

报告摘要

SuperGPQA是一个用于评估大型语言模型（LLMs）在广泛专业学科领域内研究生水平知识和推理能力的综合评估基准。SuperGPQA覆盖了285个不同的专业学科领域，涵盖了此前未被充分评估的轻工业、农业、服务导向型学科等领域。本报告旨在通过分享SuperGPQA的构建过程，以及总结实施过程中获得的重要经验和教训，为未来类似规模研究的开展提供一些方法指导和实践参考。

主持人介绍

郑天昱， TikTok研究员。研究兴趣为 Code AI、RL等，在NeurIPS、CVPR、ICLR、COLM等顶级会议发表二十余篇论文。代表作有：OpenCodeInterpreter / Mammoth2 / MMMU / MAP-Neo

直播平台

视频号

B站

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

（文：机器学习算法与自然语言处理）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

关于我们

发表评论 取消回复

发表评论取消回复