上海交通大学GAIR实验室知名学者重磅来袭!

MLNLP 社区是国内外知名自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流,特别是初学者同学们的进步。

MLNLP 2025学术研讨会 是由 MLNLP社区中国中文信息学会青年工作委员会  中国中文信息学会大模型与生成专业专委会 联合举办的学术活动。社区会定期举办学术研讨会并邀请国内外机器学习与自然语言处理领域知名青年学者进行报告交流,旨在加强国内外学者之间的交流。

MLNLP社区将在05月25于线上举办第三十一次学术研讨会,由上海交通大学的博士生王增志周凡共同担任本期程序委员会主本期研讨会分为上下两半场:上半场由王增志主持;下半场由周凡主持。具体而言,社区很荣幸邀请到上海交通大学副教授刘鹏飞老师担任大会主席,并做开场致辞;上海交通大学博士生夏世杰,北京邮电大学硕士傅大源上海交通大学博士生李学峰上海交通大学博士生王增志做专题报告。


1

会议概况


  • 召开时间:

    • 2025年05月25日 9:00-11:50(北京时间)

  • 主办单位:

    • MLNLP社区

    • 中国中文信息学会青年工作委员会

    • 中国中文信息学会大模型与生成专业专委会

  • 大会主席:

    • 刘鹏飞:上海交通大学副教授

  • 程序委员会主席:

    • 王增志:上海交通大学博士生

    • 周凡:上海交通大学博士生

  • 组委会:

    • MLNLP社区秘书处(刘洪宇、段然、陈麒光、鹿纯林、李勤政、周璟轩)

  • 直播平台:

    • 哔哩哔哩:http://live.bilibili.com/23872620

    • 微信视频号:请点击下方卡片预



2

日程安排



3

嘉宾介绍


一、大会主席:

刘鹏飞

上海交通大学副教授

嘉宾简介:刘鹏飞,上海交通大学副教授,创智学院导师,清源研究院院长助理,生成式人工智能研究组 GAIR 负责人。专注于自然语言的预训、生成和评估等研究方向,发表学术论文 100 余篇, 被谷歌学术引用 19000 余次。ACL 会议史上首次实现连续两年获得 System & Demo Paper Award,提示工程概念最早提出者之一,单篇引用超过 5000 余次。个人主页:http://pfliu.com/



二、主持人:

王增志

上海交通大学博士

嘉宾简介:上海交通大学生成式人工智能实验室(GAIR Lab)一年级博士生,目前的研究兴趣是基座语言模型的数据工程与(继续)预训练,曾以第一作者、共同第一作者身份在IEEE TKDE,NeurIPS,COLM,ACL,SIGIR等国际人工智能与自然语言处理顶级期刊和会议上发表学术论文。个人主页:https://sinclaircoder.github.io/


周凡

上海交通大学博士

嘉宾简介:上海交通大学生成式人工智能实验室(GAIR Lab)一年级博士生。他在人工智能顶级会议如 ICML, ICLR, NeurIPS 等发表过多篇论文。他特别关注构建可扩展的工具和方法,例如数据驱动的基础模型开发、代码推理及智能体。个人主页: https://koalazf99.github.io/


三、分享嘉宾:

夏世杰

上海交通大学博士生

嘉宾简介:夏世杰,上海交通大学生成式人工智能实验室(GAIR Lab)一年级博士生,目前的研究兴趣是大模型复杂和高效推理,在NeurIPS, AAAI, EMNLP等国际人工智能顶级会议发表学术论文。个人主页:https://shijie-xia.github.io/

报告题目:生成式AI第二幕: 认知工程

报告简介:生成式AI发展正经历深刻的范式变革。本次分享将深入探讨人工智能领域的新范式——‘认知工程’,即通过测试时计算扩展系统性提升AI思维能力。第一代大型语言模型依赖大规模预训练实现知识获取,而生成式AI现已进入‘第二幕’,研究前沿聚焦推理过程中的计算资源分配优化,以实现更深层推理。报告将详细分析测试时计算扩展的主要方法(如并行采样、树搜索、多轮修正和长链推理等),涵盖其理论基础、实现方法及应用优势;探讨支持这些能力的训练策略,包括强化学习与监督微调;并分析相关基础设施需求及该领域的未来研究方向。


傅大源
北京邮电大学硕士生


嘉宾简介:傅大源,北京邮电大学人工智能学院硕士生,导师为徐蔚然副教授,目前在上海交通大学生成式人工智能实验室(GAIR Lab)访问。研究方向主要集中在Agent记忆优化、Agent数据构造和基于强化学习的Agent训练,并在EMNLP、ICLR等顶级会议上发表多篇相关研究论文。目前,他的研究兴趣主要集中在探索通过强化学习优化语言模型的进行深度研究能力,尤其是在真实网络环境中的应用。个人主页:https://fu-dayuan.github.io/

报告题目:利用真实环境下的强化学习提升模型深度研究的能力

报告简介:Deepresearch展示出利用网络搜索促进大语言模型进行深度研究的巨大潜力,但现有开源提示工程或RAG方法存在缺陷,无法捕捉真实世界交互的复杂性,这促使我们需要通过真实网络搜索环境结合强化学习训练端到端Agent,以适配开放网络的复杂动态。本次报告将从三个维度深入探讨这一问题:首先,本次报告将介绍Deepresearch的背景和相关工作。其次,我们会介绍使用真实环境的优势与困难并分析这些困难的解决方法。最后,我们会介绍在真实环境中进行强化学习模型的效果与特性。



李学峰

上海交通大学博士生

嘉宾简介:李学峰,上海交通大学生成式人工智能实验室(GAIR Lab)一年级博士生。研究兴趣是大模型推理。

报告题目:通过强化学习提高LLM工具集成推理能力

报告简介:大语言模型已经能够表现出惊人的推理能力。但推理模型基于的思维链(Chain-of-Thought, CoT)处理复杂计算和精确推理任务不能完全准确,通过工具集成推理(Tool Integrated Reasoning)可以有效解决减少LLM在复杂计算上的错误率。先前的方法多基于监督式微调(SFT),限制了模型对最优策略的探索。本文直接从基础模型起步,允许模型自由探索工具调用策略;通过实时反馈强化学习,模型生成代码并实时调用代码执行工具,根据执行反馈动态调整推理路径,实现准确率远超传统RL模型及此前最佳的工具增强推理模型。


王增志

上海交通大学博士生

嘉宾简介:上海交通大学生成式人工智能实验室(GAIR Lab)一年级博士生,目前的研究兴趣是基座语言模型的数据工程与(继续)预训练,曾以第一作者、共同第一作者身份在IEEE TKDE,NeurIPS,ICML,COLM,ACL,SIGIR等国际人工智能与自然语言处理顶级期刊和会议上发表学术论文。个人主页:https://sinclaircoder.github.io/

报告题目:OctoThinker: 通过mid-training激励模型可扩展推理

报告简介:通过大规模强化学习激励语言模型通过更长的思维链在一系列极具挑战性的推理任务上取得了显著进展。目前100B参数量以下的模型最先进的性能通常是基于Qwen基座模型产生的,且不同的基座模型(比如Llama)在进行强化学习时呈现出迥异的行为模式和训练动态特征。这一现象引发了我们对基座模型核心能力差异的深入思考:究竟哪些关键因素在预训练段塑造了模型的基础能力,从而决定了其在后续强化学习中的推理扩展潜力?我们通过mid-training来对基座模型进行干预,通过一系列精心设计的对照实验来探究(1)高质量推理密集的预训练语料(2)含思维链的问答数据(3)通用指令跟随数据(4)训练计算量等因素对下游强化学习的影响。基于上述实验带来的洞察,我们对Llama系列模型进行两阶段大规模Mid-training干预方案,在第二阶段根据数据特点产生不同的分支;实验显示我们的大规模Mid-training显著提升了Llama基座模型的能力,更使其在强化学习可扩展地提升其推理能力,希望本工作能给推理时代关于语言模型基座如何研发带来启发。



4

直播平台


视频号


B站


5

会议报名


会议报名可以直接扫描下方二维码进入交流群。会议的观看地址等信息都会在群里通知。已经加入MLNLP交流群的同学请不用重复添加!

扫描二维码进入MLNLP交流群


关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。


(文:机器学习算法与自然语言处理)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往