社区的愿景
是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流,特别是初学者同学们的进步。
MLNLP 2025学术研讨会
是由
MLNLP社区
和
中国中文信息学会青年工作委员会
联合举办的学术活动。
社区会定期举办学术研讨会并邀请国内外机器学习与自然语言处理领域知名青年学者进行报告交流,旨在加强国内外学者之间的交流。
MLNLP社区将在01月26日于线上举办第二十八次学术研讨会,由香港大学的穆尧老师和上海人工智能实验室的王泰老师共同担任本期程序委员会主席。本期研讨会分为上下两半场:上半场由穆尧主持;下半场由王泰主持。具体而言,社区很荣幸邀请到上海交通大学助理教授李永露老师担任大会主席,并做开场致辞;清华大学硕士生穆世龙,北京大学博士生侯程凯,北京大学硕士生武鹏荧,新加坡国立大学博士生曾毓薇,新加坡国立大学博士生陈俊廷,香港大学博士生谢天宝做专题报告。
会议概况
-
召开时间:
-
2025年01月26日 9:00-12:05(北京时间)
-
主办单位: -
MLNLP社区
-
中国中文信息学会青年工作委员会
-
大会主席:
-
李永露:上海交通大学助理教授、博导
-
程序委员会主席: -
穆尧:香港大学博士
-
王泰:上海人工智能实验室青年科学家
-
组委会: -
MLNLP社区秘书处(刘洪宇、段然、陈麒光、鹿纯林、李勤政、周璟轩)
-
直播平台:
-
哔哩哔哩:http://live.bilibili.com/23872620
-
微信视频号:请点击下方卡片预约
日程安排
嘉宾介绍
一、主持人:
穆尧
香港大学博士生
嘉宾简介:穆尧,香港大学博士, 共在 NeurIPS, ICML, ICLR, CVPR, RSS等顶会顶刊发表论文20余篇,曾获 ECCV 协同具身智能研讨会最优论文奖,ICCAS2020 大会最优学生论文奖,IEEE IV2021 最优学生论文提名奖等多项学术奖励, 于2021年在清华大学取得硕士学位,荣获香港博士政府奖学金,香港大学校长奖学金,国家奖学金,清华大学优秀硕士毕业生,清华大学优秀硕士论文奖等荣誉称号。研究方向: 具身智能、强化学习、智能机器人控制。个人主页:yaomarkmu.github.io
王泰
上海人工智能实验室青年科学家
嘉宾简介:王泰,上海人工智能实验室青年科学家,博士毕业于香港中文大学 MMLab,研究方向为具身智能和三维视觉。过往工作有近三十篇论文在顶级会议和期刊上发表,谷歌学术引用 3000 余次,多篇被选中做口头报告或获得满分评审,并多次在国际顶级竞赛中获得冠军。代表工作包括早期 FCOS3D 系列工作和近期 EmbodiedScan, GRUtopia 和 PointLLM 等,相关开源工作如 MMDetection3D 在学界和业界有广泛影响。曾获得 ECCV 最佳论文提名、ICCV 研讨会最佳论文、港府奖学金。
二、大会主席:
李永露
上海交通大学助理教授
嘉宾简介:李永露博士,上海交大助理教授,博导,研究具身智能、物理推理、行为理解,代表工作HAKE(引用1200+,Github Star 1.5K+,官网全球访问15万+次)、AlphaPose(引用500+,Github Star 8K+),大幅提高视觉行为理解精度。发表研究成果40+(TPAMI、NeurIPS、ICML、CVPR、ICCV、ECCV、IJCV),谷歌引用2300+,他引超100论文7篇(单篇ESI排名前千分之八);开源项目20余项,获Github star 1.2万+。任NeurIPS 2024 Area Chair,上海创智学院导师,上海交大ACM班《计算机视觉》,AI班《虚拟现实》课程教师, VALSE EAC,中国人工智能学会-具身智能专委会执委、秘书处成员。主持、参与多项国家级项目,如青基、科技部重点研发计划等。获上海市海外高层次人才、中国人工智能学会吴文俊人工智能科学技术奖-优秀博士学位论文、WAIC云帆奖-璀璨明星、明日之星、NeurIPS’20/21杰出审稿人、百度奖学金、2020华人学生AI百人、上海市优毕,中国国际大学生创新大赛优秀指导老师等。
三、分享嘉宾:
穆世龙
清华大学硕士生
嘉宾简介:穆世龙,清华大学深圳国际研究生院22级硕士生,专注于多模态触觉系统与具身智能的研究,师从丁文伯副教授。作为第一作者在国际知名期刊《Nano Energy》和会议ICRA、MobiCom等上发表了多篇高水平学术论文,累计影响因子达39.8。曾获本科及研究生阶段国家奖学金,美团第二届低空经济智能飞行管理挑战赛 创意赛冠军,全国研究生学术研讨会(CUHKSZ) 优秀汇报学生等荣誉,担任国际机器人会议 IEEE ICRA、IROS、ROBIO审稿人。个人主页:https://charon-bo.github.io/。
报告题目:基于光电融合的触觉传感器在具身智能中的应用
报告简介:具备触觉感知功能的电子皮肤使智能机器人能够进行灵活的操作,并与人类及其周围环境进行更加自然的交互。然而,当前触觉传感技术在信号解耦方面仍面临瓶颈,单一触觉传感机制在同时感知几何特征和材料属性时仍然存在较大挑战。近年来,视触觉传感器的出现为突破人类感知分辨率的极限提供了新的可能性。在电学与光学各具优势的情况下,如何充分融合这两种技术,最大化地获取多模态感知信息,成为了一个亟待解决的难题。本报告将介绍基于光电融合的多模态传感器研制及触觉双工电子皮肤的应用研究,并重点探讨触觉传感技术在具身智能、人形机器人等领域的应用前景与技术挑战。我们将分析当前触觉传感技术的局限性,并展示光电融合触觉传感器如何推动机器人感知系统向更加精细化和智能化的发展,进一步提高机器人在复杂环境中的操作能力与互动精度。
侯程凯
北京大学博士生
嘉宾简介:侯程凯,北京大学计算机学院博士研究生,师从仉尚航和程宽。研究方向包括据具身智能以及3D视觉。个人主页:https://jackhck.github.io/
报告题目:Robomind: 多本体的机器人操作数据集
报告简介:我们推出了 RoboMIND(机器人操作的多构型智能规范数据集和基准),该数据集包含了在279种不同任务中涉及61类独特物体的5.5万个真实世界演示轨迹。RoboMIND数据集汇集了多种机器人平台的操作数据,包括31,005条Franka Emika Panda单臂机器人轨迹、9,686条”天工”人形机器人轨迹、8,030条AgileX Cobot Magic V2.0双臂机器人轨迹、以及6,911条UR-5e单臂机器人轨迹数据。通过涵盖广泛的任务类型和多种物体类别,RoboMIND 为研究人员和开发者提供了一个宝贵的资源,以推动机器人学习和自动化技术的发展。此数据集不仅数量庞大,而且质量上乘,确保了其在实际应用中的有效性和可靠性。
武鹏荧
北京大学硕士生
嘉宾简介:武鹏荧,北京大学工学院先进制造与机器人系硕士研究生,师从刘畅教授。研究方向包括具身智能、视觉导航以及LLM Agent等。2024科大讯飞“星火杯”大模型应用创新赛冠军(1/1656),AI开发者大赛十佳团队(10/35k)。
报告题目:VoroNav:基于Voronoi图的大语言模型零样本目标导航
报告简介:在家用机器人领域,物体搜寻是完成各种复杂任务必不可少的一环。人类能够熟练地在新环境中寻找物体,但如何使机器人在陌生环境下智能地导航并高效地定位目标,仍是当前研究的热点。在这份工作中,我们聚焦于开放世界环境下的目标导航任务,即机器人需在未知的家居环境内根据给定描述来搜寻并定位对象,例如一只马克杯等。我们开发了一套模块化的导航框架 VoroNav,该框架无需任何训练,通过结合语义地图和Voronoi空间拓扑图来表征导航环境,同时借助大语言模型强大的空间推理能力,以指导机器人启发式地探索和导航。在此任务的一系列基准测试中,VoroNav凭借高效的场景表征机制以及与大模型推理的有机融合,为移动机器人提供了智能导航决策方案。
曾毓薇
新加坡国立大学博士生
嘉宾简介:曾毓薇,新加坡国立大学计算机学院博士三年级学生,师从Xavier Bresson,研究方向包括机器人学习,低样本模仿学习与强化学习。个人主页:https://friolero.github.io/
报告题目:机器人技能学习中基于大语言模型自对齐的奖励学习
报告简介:随着训练数据与规模的增大,大语言模型在范领域的常识信息掌握上表现出极大的价值。奖励学习即是一个将常识信息编码成机器知识的过程,然而直接将大语言模型运用在奖励设计上仍有限,主要源于大语言模型缺乏对任务环境的理解,生成的潜在逻辑错误与对数值精确的不敏感。针对这些问题,我们提出一种在自对其框架下的奖励学习,通过迭代奖励提议/反思,环境执行,反馈与数值优化的过程,保证常识与环境信息被正确地引入奖励设计。我们在ManiSkill和Isaac Gym的9个机器人技能任务下验证了该方法,并且一致地表现出更高的功效和效率。我们希望这套框架可以帮助机器人的大型开放式技能学习变得更可能。
陈俊廷
新加坡国立大学博士生
嘉宾简介:陈俊廷是新加坡国立大学计算机系一年级在读 PhD candidate,此前他于 ETH Zurich 取得机器人控制硕士学位。他的研究为具身智能,包括多模态大模型的场景理解,任务规划和机器人控制。
报告题目:EMOS: 基于大语言模型的异构多机器人操作系统
报告简介:多机器人系统(HMRS)的出现是为了应对单个机器人无法独立完成的复杂任务。随着机器人硬件的多样化和复杂环境的出现,HMRS面临着如何有效协作的挑战。这些系统需要能够处理任务分解、团队组建和协调任务分配等问题。而之前的HMRS往往基于专家设计编写的固定逻辑去实现协作逻辑,限制了HMRS的泛化能力以及处理开放世界复杂任务的能力。EMOS提出了基于大语言模型的多智能体系统,以机器人URDF和环境信息为输入,实现了对机器人空间物理能力和任务需求的理解,机器人基于对具身能力理解的的进行任务规划和执行。
谢天宝
香港大学博士生
嘉宾简介:谢天宝,香港大学博士三年级在读,由余涛(主要)和孔令鹏老师指导。获香港政府博士奖学金和香港大学校长奖学金资助。他在人工智能顶级会议如ICLR, NeurIPS, EMNLP等发表多篇论文。他的主要研究兴趣在于人工智能和自然语言处理,特别专注于开发大规模神经符号人工智能系统和自主智能体。个人主页:https://tianbaoxie.com
报告题目:OSWorld:面向真实计算机环境的开放式任务多模态智能体
报告简介:OSWorld 是一个可扩展的并行环境,用于构建和评估自主数字智能体在各类真实世界计算机任务中的表现。OSWorld支持包括 Ubuntu、Windows 和 macOS 在内的多个操作系统,能够在涉及网络和桌面应用程序的交互式环境中对智能体进行全面的、基于执行的训练和评估。该基准测试包含 369 个来自实际应用场景的任务。测试结果显示,即使是最先进的多模态模型智能体也仅能达到 22% 的成功率,而人类的成功率则达到 72.36%,这凸显出了当前智能体的局限性。该平台为推进多模态智能体的开发提供了关键性的见解。所有相关资源均已开放,以促进研究者在这一极具前景的领域进行深入探索。
4
直播平台
直播平台
视频号
B站
会议报名
会议报名可以直接扫描下方二维码进入交流群。
会议的观看地址等信息都会在群里通知。
已经加入MLNLP交流群的同学请
不用重复添加
!
扫描二维码进入MLNLP交流群
关于我们
(文:机器学习算法与自然语言处理)