聚焦推理模型、AI Infra、AI智能体与具身大模型！DeepSeek时代首场生成式AI大会4月举行

2025年4月1-2日，2025中国生成式AI大会（北京站）将在北京中关村东升科技园万丽酒店举行。中国生成式AI大会已成功举办三届，现已成为国内人工智能领域最具影响力的产业峰会之一。

本次大会继续由智一科技旗下智猩猩、智东西共同发起，以“大拐点新征程”为主题，计划邀请50+位重量级嘉宾同台分享和讨论，深入透视DeepSeek带来的颠覆与重构，全面展示国内生成式AI重大进展。

中国生成式AI的发展，尤其是大语言模型，已经从GPT引领切换到DeepSeek驱动。AI Infra在国内的研究与开发方向更加明确，国产AI芯片与算力领域也获得再次突围的新动能。此外，包括AI智能体、AIGC应用在内的应用热潮更是备受期待。与此同时，视觉大模型、多模态大模型、具身大模型在过去一年也取得了非常大的进展，呈现出百花齐放的局面。

本次大会围绕上述重大变化进行了日程设计。大会主会场首日将进行开幕式、GenAI应用论坛，次日全天将进行大模型峰会；分会场则会先后组织DeepSeek R1与推理模型技术研讨会、AI智能体技术研讨会和具身智能大模型技术研讨会。其中，三场研讨会为闭门制，主要面向持有闭门专享票、贵宾通票的观众开放。

已经迫不及待报名的朋友，可以先扫描下方二维码添加小助手报名啦！

目前，来自35+家企业、高校与科研机构的嘉宾学者已确认参与主题演讲和圆桌Panel。

其中，智源研究院副院长兼总工程师林咏华将参与开幕式。还有多位嘉宾是来自清华大学、北京大学、中国人民大学、西湖大学的知名学者和青年学者。

AI智能体方向，也邀请到不少嘉宾，其中就包括通用智能体Manus最强平替「OWL」的一作胡梦康博士，AppAgentX一作蒋文嘉，Eko主要作者陆逸文博士；AI Infra方面也是来了不少大咖，其中就包括上海交通大学副教授、无问芯穹联合创始人兼首席科学家戴国浩；推理模型方向，由中国人民大学高瓴人工智能学院教授领衔，Light-R1核心作者、360智脑算法资深专家邹昊晟，华中科技大学Hust Vision Lab与地平线联合培养博士生、AlphaDrive一作蒋博。

具身智能方向更是牛人云集，包括星海图联合创始人许华哲教授、智澄AI创始人&CEO&前Meta首席工程负责人胡鲁辉、RoboMamba一作刘家铭、双臂机器人操作扩散大模型RDT一作刘松铭、星动纪元实习研究员郭彦江博士、北京智源人工智能研究院研究员郝孝帅，上海人工智能实验室具身智能中心青年研究员汪汗青以及“杭州六小龙”之一群核数据的科研算法专家汪仁涵。

接下来一一介绍。更多信息可以从文末「阅读原文」进入大会官网了解。

01、开幕式部分嘉宾

智源研究院副院长兼总工程师林咏华

中国人民大学高瓴人工智能学院教授赵鑫

演讲主题：《大模型慢思考技术探讨》

内容概要:

最近以DeepSeek-R1为代表的大模型慢思考技术受到了较大关注，慢思考模型通过生成更长的思考过程来解决更具挑战性的问题，在多个科学场景和应用领域都取得了重要突破。

本次报告将聚焦大模型慢思考的基础技术与实现方法，对于其中可能涉及到的技术路径进行探索和系统性讲解，主要介绍以强化学习为主线的关键技术，并结合自身实践经验讨论其中的技术挑战，然后探讨推理模型的科学价值，并且总结现阶段推理模型的局限以及未来的技术发展趋势。

清华大学交叉学院助理教授、博导、星海图联合创始人许华哲

演讲主题：《破解具身智能中的数据难题》

内容概要：

具身智能的数据难题核心在于多模态感知-动作耦合数据的稀缺性与异构性：真实物理交互数据获取成本极高（如机器人操作需百万级闭环交互），且跨场景迁移受限；多源传感器（触觉、视觉、力觉）的数据难以获得，时空对齐与语义关联复杂度呈指数级增长，而仿真到真实（Sim2Real）的数据偏差进一步加剧模型退化。当前突破方向集中在物理启发的数据增强与因果表征学习，通过解耦环境动态性与本体控制逻辑提升数据效用。

GMI Cloud创始人、CEO Alex Yeh

2、GenAI应用论坛部分嘉宾

爱诗科技商业化负责人孙伟哲

GMI Cloud亚太区总裁 King.Cui

演讲主题：《AI推理的全球算力革命：从单点爆发到全球扩容》

内容概要：

AI应用全球化浪潮下，推理效率与算力供给成为破局关键。本次演讲以GMI Cloud Inference Engine为锚点，拆解其高并发、低延迟、动态扩缩容能力如何支撑全球AI业务爆发，深度分享GMI Cloud自研推理平台的架构设计、跨区域合规部署及软硬协同优化实践，揭秘其实现推理成本、指数级效率提升的关键路径。

Zilliz合伙人、产品总监郭人通

演讲主题：《从Infra的角度看DeepSearch Test-Time Scaling Law》

内容概要：

近期 Agent 与垂域的结合越来越受到产业关注，Zilliz 也对 OpenAI DeepSearch 进行了简单复刻尝试。在这次尝试以及在用户的交流中，我们认识到 Agent 的 Scaling Law 本质是数据信息探索效率，报告中我们会分享 zilliz 的观察，并介绍我们在数据基础设施层面解决数据信息探索效率的最新尝试。

枫清科技Fabarta创始人兼CEO 高雪峰

演讲主题：《知识引擎与大模型双轮驱动：打造下一代企业级智能体应用平台》

内容概要：

在企业智能化浪潮中，仅仅依赖通用大模型往往难以满足复杂业务场景对精准性和可解释性的严苛要求。知识引擎的引入，如同为大模型装上了精准的导航系统和强大的逻辑推理能力，显著提升智能体在理解企业Know-how、执行任务和决策方面的能力，更可靠地执行任务。同时，知识引擎更是提炼行业大模型、构建行业智能应用的基础。这种“双轮驱动”的模式，将成为企业构建下一代核心竞争力的关键引擎，最终驱动企业实现真正意义上的智能进化。

博查AI搜索联合创始人&CTO 翁柔莹

光羽芯辰创始人兼董事长周强

3、大模型峰会部分嘉宾

上海交通大学副教授、无问芯穹联合创始人兼首席科学家戴国浩

澳鹏Appen中国及韩国区副总裁董成

焱融科技CTO 张文涛

演讲主题：《破局AI算力瓶颈：高性能全闪存储在训练与推理中的场景化实践》

内容概要：

DeepSeek的开源堪比ChatGPT时刻，引发了AI技术的新一波浪潮，从开源推理模型到开源底层基础设施，公布了端到端的大模型训练和推理技术路线。在开源的基础架构中，高性能全闪分布式文件是训练和推理的数据底座，支撑了AI训练的高吞吐，同时也提供了基于文件存储的上下文KVCache缓存解决方案，以存代算，大幅降低了推理成本，

本次演讲将介绍焱融科技的高性能全闪存储产品在训练和推理中的应用场景和实践。

智澄AI创始人&CEO 胡鲁辉

演讲主题：《物理智能：开启人形机器人新时代》

内容概要：

人工智能正以前所未有的速度塑造世界，生成式AI如GPT系列带来了认知层面的突破。然而，真正推动下一波人工智能革命的关键是物理智能（Physical Intelligence）。物理智能旨在赋予AI具备真实世界的感知、理解与操控能力，使机器不仅能“理解”物理世界，更能主动“干预”物理世界。

本演讲将深入探讨：

1）为什么物理智能是继生成式AI之后，推动机器人时代到来的重要力量？

2）人形机器人如何通过物理智能实现“感知—认知—行动”的闭环，真正融入现实场景？

3）当前AI技术（如多模态大模型、强化学习与模仿学习、VR遥操作和通用机器人交互接口）如何助力物理智能的发展？

4）未来物理智能如何推动机器人从工具走向伴侣甚至伙伴，引领下一个产业与社会变革的浪潮？

5）智澄AI引领理解物理世界大模型，介绍在物理智能方面的突破，并隆重推出智澄AI新一代人形机器人TR4。

通过对前沿技术的解析与实际案例的展示，我们将共同展望一个由物理智能开启的机器人新时代。

中昊芯英软件研发负责人朱国梁

清程极智联合创始人、产品副总裁师天麾

澎峰科技创始人&CEO 张先轶

首都在线CTO 许涛

Alluxio解决方案架构师汤文军

演讲主题：《构建大模型时代的AI存储新范式》

内容概要：

2024年，端到端自动驾驶是智驾行业的主战场，这一年国内智驾技术迅猛发展，部分公司已经完成了从智驾1.0向量产级端到端自动驾驶的快速切换，这其中数据基建工程带来的规模化效应(scaling law)为这一阶段性进展提供了强力支撑。

本次将从科研角度分享，监督学习范式下端到端自动驾驶的新进展及其面临的关键挑战，分享端到端自动驾驶scaling law的探索，并讨论针对目前面临的关键挑战一些值得进一步探索的研究方向。

Zenlayer行业拓展总监陈秀忠

04、DeepSeek R1与推理模型

技术研讨会部分嘉宾

360智脑算法资深专家邹昊晟

报告主题：《Light-R1：低成本复现推理模型之路》

内容概要：

360智脑在3月4日开源了Light-R1模型及全部训练数据和代码，用较低的训练成本即可从零训练得到推理模型，在开源时首次实现领域内评测超越DeepSeek-R1-Distill。报告将介绍Light-R1背后的课程学习SFT、RFT、DPO等方法上的数据心得和训练策略，和QwQ-32B、TinyR1等相关工作在训练资源、方法等各方面的比较。虽然Light-R1仅使用数学数据训练了模型的长推理能力，但在非数学任务上也表现出了泛化性及有效性。随着训练和推理技术的不断发展，未来长推理模型将更加普及，Light-R1 正为低成本快速训练一个领域专精推理模型提供了重要参考。

北大在读博士、普林斯顿高级研究助理杨灵

报告主题：《基于思维模版LLM层次化推理新范式》

内容概要：

尽管大型语言模型（LLMs）在复杂推理任务中仍面临挑战，但本次分享提出了一种新的推理轨迹表征方法——思维模板（Thought Template）。首先，Buffer of Thought 框架首次引入“思维模板”概念，用于总结关键推理模式。基于此，SuperCorrect 利用思维模板实现了分层的 LLM 蒸馏和自纠错方法，使小型 LLM 也能达到具有竞争力的表现。随后，ReasonFlux 通过自动化扩展思维模板，并结合分层强化学习算法优化推理搜索空间的效率，进一步增强了 LLM 的复杂推理能力，以32B的参数规模超越o1-preview并逼近DeepSeek-R1的推理准确率。这些进展表明，思维模板有潜力成为更高效的大模型推理轨迹表征。

华中科技大学Hust Vision Lab与地平线联合培养博士生蒋博

报告主题：《探索DeepSeek强化学习和推理策略在自动驾驶中的巨大潜力》

内容概要：

DeepSeek R1验证了强化学习在模型自主探索和提升模型能力/训练效率上的显著优势，结合Reasoning策略，有效增强了模型的复杂问题解决能力。在自动驾驶领域，终极任务是planning，这也是一项涉及场景理解、分析、和决策的复杂任务，我们首次尝试将DeepSeek R1的强化学习和推理策略迁移应用于驾驶领域，并做出一系列针对驾驶规划的策略优化，显著提升大模型自动驾驶决策规划的效果，并展现出涌现的多模态规划能力。欢迎大家多多交流讨论。

浙江大学软件学院硕士研究生二年级张锦添

报告主题：《长思维链高效推理方法——动态压缩思维过程》

内容概要：

大型语言模型（LLM）在复杂推理任务中生成冗长的中间思维步骤会导致显著的内存与计算开销，限制了其实际应用效率。现有高效长思维推理方法可以分为两类，第一类通过提示工程或者训练的方式让LLM学会使用较少的词进行推理，第二类通过在LLM推理过程中对kv缓存进行裁剪进行。

本次演讲提出LightThinker，一种基于动态思维压缩的推理加速方法，其核心是通过训练的方式让LLM在合适的时机自主压缩冗长的思维为紧凑的表征，并基于压缩后的内容继续推理，从而降低显存开销，提升推理速度。

5、AI智能体技术研讨会

部分嘉宾

香港大学在读博士、CAMEL-AI OWL一作胡梦康

报告主题：《面向真实场景下任务自动化的多智能体协作系统》

内容概要：

随着大模型的实际应用蓬勃发展，多智能体协作系统在真实场景下的任务自动化已成为人工智能领域的重要研究前沿。本报告系统介绍面向真实场景任务自动化的多智能体协作系统研究，包括框架设计、效能优化、系统扩展等关键技术，探索为复杂任务自动化提供高效解决方案的方法与路径。

本次报告，将重点介绍OWL (Optimized Workforce Learning)框架，该框架在GAIA基准测试中取得58.18的平均得分，位列开源框架第一，并在GitHub上已获得11,000+星标的瞩目关注。此外，报告探讨解决智能体系统在真实应用场景中面临的关键挑战的创新工作：(1) 高效闭环规划(Tree-Planner)，优化智能体决策路径；(2) LLM智能体环境扩展性解决方案(AgentGen与Text2World)，实现大规模场景适配；(3) 层次化管理LLM智能体上下文技术(HiAgent)，提升系统运行效率与稳定性。

西湖大学 AGI 实验室 Agent 方向研究员蒋文嘉

报告主题：《驱动GUI智能体从智能化到高效化的实践探索》

内容概要：

现有LLM驱动的GUI智能体面临决策链冗长、重复推理成本高等瓶颈，传统脚本化工具难以适应动态界面，而大模型虽提升泛化能力却牺牲了执行效率。针对GUI操作缺乏”肌肉记忆”和跨应用泛化难题，我们提出分层记忆库与视觉-语义解耦架构的双重优化方案：通过规则构建动态进化机制，将常用操作路径推理耗时缩短60%以上。工程实践中采用混合推理框架（规则引擎兜底+LLM决策），在复杂场景测试显示，任务完成率从传统方案的47%提升至89%，资源消耗下降40%。

清华大学计算机系博士生、Agent Hospital一作李俊凯

报告主题：《基于大模型的可进化医疗智能体—Agent Hospital》

内容概要：

Agent Hospital这一项目通过构建虚拟医院环境，赋能AI医生在动态复杂场景中持续进化，目标实现医疗能力的突破性提升。本次报告，我将从以下五个方面进行展开：

首先，我将介绍大模型与智能体融合的医疗新范式。大模型是“魂”，为医疗智能体提供底层认知能力；智能体是“体”，从静态数据处理转向动态环境交互，单智能体拓展能力边界，多智能体协同解锁复杂医疗流程。其次，可进化性是AI医生的核心突破。AI医生依托虚拟医院生成无限病例，实现无标注数据自进化，诊疗能力超越人类速度。接着，将重点解读我们提出的基于大模型的可进化医疗智能体Agent Hospital。之后将展望未来医疗从实体医院到人工智能医院的三大趋势。最后，将介绍我们的项目影响力以及对行业的启示。

清华大学自动化系博士研究生、Eko主要作者陆逸文

报告主题：《基于工作流的可干预 Agent 框架Eko》

内容概要：

本次报告将探讨一种新兴的智能体设计范式——基于工作流（workflow）的可干预智能体框架 Eko。与传统端到端自治代理的黑箱模式不同，Eko 强调以结构化任务图清晰地规划和执行复杂任务，具备更好的透明性与审计性；同时，提供生产级的干预机制，允许用户在任务执行的任意环节精细介入，以确保智能体的行为始终可控且可审计。此外，Eko 还支持跨浏览器、桌面等多种运行环境的无缝部署，能够灵活整合企业私域数据，从而在生产实践中显著提高智能体的落地可靠性与安全性。基于上述特点，Eko 已经初步展现出在具身智能等领域进行任务编排的潜力，值得进一步探索

ANP开源技术社区发起人常高伟

报告主题：《从MCP到智能体通信协议：ANP在智能体互联网上的探索》

内容概要：

MCP自推出以来，逐渐的获得行业的广泛关注。MCP在解决模型与工具/资源连接方法的标准化上，发挥了重大的作用，能够有效降低模型获得上下文、调用工具的成本。

然而，智能体互联网要求所有的智能体都能够互联互通。MCP并不是为了智能体而设计，其中心化的身份认证方案和CS的协议架构，使其并不适合用于智能体的连接、通信与协作。

当前行业已经出现多个专为智能体而设计的通信协议，其中ANP（AgentNetworkProtocol）的设计更为前瞻、实现更为完备。ANP解决了智能体身份、智能体描述、智能体发现三大难题，基于ANP能够构建便于AI访问的数据网络。这为即将到来的智能体互联网探索了一条新的技术路线。

6、具身智能大模型技术研讨会

部分嘉宾

北京智源人工智能研究院研究员郝孝帅

报告主题：《统一具身多模态大脑模型RoboBrain》

内容概要：

本次报告我将从以下两方面进行解读：

（1）我们提出了ShareRobot，一个大规模、高质量、细粒度的异构数据集，涵盖102个场景、12种机器人本体和107种原子任务，包含百万级问答对。数据集标注了任务规划、对象可操作区域和末端执行器轨迹等多维信息，填补了现有数据在多样性、粒度和任务复杂性上的不足，为机器人学习与规划提供了全面支持。

（2）基于ShareRobot，我们提出了RoboBrain，一个统一具身多模态大脑模型，首次实现任务规划-可操作区域感知-轨迹预测的三维能力融合。RoboBrain将抽象指令（如“准备一杯茶”）映射为具象动作序列（如抓取、对准、倾倒），并同步生成可操作区域与精确轨迹，显著提升机器人在具身长程操作任务中的能力。该模型通过多模态协同，解决了传统方法在任务分解、感知与动作生成中的割裂问题，为复杂机器人操作提供了全新解决方案。

北京大学在读博士、 Robomamba一作刘家铭

报告主题：《构建鲁棒且高效的视觉-语言-动作大模型RoboMamba》

内容概要：

本报告旨在探讨如何构建更鲁棒且高效的视觉-语言-动作（VLA）大模型，并从以下四个方面展开深入讨论：1）VLA 模型的输入方式，2）VLA架构设计，3）VLA训练策略，4）VLA输出机制。同时，我们还将分析当前行业内 VLA 发展的最新趋势，并介绍自研的高效 VLA 模型—RoboMamba。具体来说，RoboMamba是一个高效的端到端VLA具身大模型，专为机器人场景优化设计，旨在实现高效的推理与操作能力。这一成果以题为《RoboMamba：具备机器人推理与操控能力的高效视觉-语言-动作大模型》的论文，发表在全球顶级学术会议NeurIPS 2024上。

清华大学ISRLab在读博士生、星动纪元实习研究员郭彦江

报告主题：《基于世界模型的通用机器人策略学习》

内容概要：

构建通用的操作模型是通用机器人最有挑战性的一个部分，机器人需要具备丰富的物理先验知识，才能泛化到新任务。视频生成大模型在互联网视频数据上进行了大规模预训练，能够预测合理的未来发展轨迹，压缩了丰富的物理先验知识。本次演讲主题是如何基于视频世界模型构建通用的机器人操作策略，具体包括Prediction with Action(PAD)，Video Prediction Policy(VPP)等两项工作。

清华大学TSAIL团队博士生刘松铭

报告主题：《双臂机器人操作扩散大模型RDT》

内容概要：

我们提出了一种用于双臂机器人操作的扩散基座模型——Robotics Diffusion Transformer（RDT），该模型以扩散模型作为基础，能够有效地表示多峰的人类动作分布，并采用可扩展的Transformer架构来处理异构的多模态输入，捕捉机器人数据中的非线性和高频特性。为了解决数据稀缺问题，文章进一步引入了一种物理可解释的统一动作空间，该空间可以统一各种机器人的动作表示，并保留原始动作的物理含义，方便学习可迁移的物理知识。通过这些设计，我们成功地在目前（截止文章公布时，下同）最大的多机器人数据集上对RDT进行了预训练，并将其扩展到12亿个参数，这是目前用于机器人操作的最大的基于扩散建模的基础模型。最后，我们在一个自己收集的多任务双臂数据集上对RDT进行了微调，以提高其双臂操作能力。在真实机器人实验中，RDT明显优于现有方法。它能够零样本泛化到未见过的物体和场景，理解和遵循语言指令，仅需1~5个演示就能学习新的技能，并有效地处理复杂的灵巧任务。该项目的代码、模型和数据均已开源，请访问项目主页：https://rdt-robotics.github.io/rdt-robotics/。

上海人工智能实验室具身智能中心青年研究员汪汗青

报告主题：《桃源2.0推动通用具身智能迈向虚实贯通之路》

内容概要：

在实现通用具身智能所面临的关键挑战中，首当其冲的是可用数据的稀缺问题：底层海量互联网数据存在质量低、标注缺失等问题；顶层的同构真机数据成本极高，且存在多样性问题。仿真数据虽具理论无限性，却受限于数字资产、专家演示和虚实鸿沟难题。针对上述问题，我们提出”虚实贯通”技术框架以系统化解决现存问题，通过”桃源（GRUtopia）2.0″平台作为关键纽带，构建了”真实-仿真-真实”闭环技术路径。桃源2.0具有以下特性：

– 模块化仿真框架：支持导航、操作、运动控制等全任务类型，通过”三行代码”快速定义具身任务，实现多任务开发平台统一；

– 智能场景生成：集成十万级场景库与百万级物体库，结合自动化生成与随机化工具，实现复杂场景一键构建与数据无限扩增；

– 高效数据工场：提供操作/全身控制遥操作工具与导航批量化采集系统，单机单日可获取15,000条高质量导航轨迹，大幅降低多元数据采集门槛。

我们通过一系列实验验证了“虚实贯通”技术框架在突破仿真内容生产瓶颈的同时能够有效弥合虚实鸿沟。相信通过相关模型、工具链的研发和开源开放，我们能够和具身智能领域的研究人员共同探索一条新的通往通用具身智能的降本增效路径。

群核科技科研算法专家汪仁涵

报告主题：《打破数据之困，让具身智能走进物理世界》

内容概要：

数据生成能力是具身AI的“创新引擎”！如何赋予AI跨模态认知与未知环境自适应能力，为智能体提供无限迭代的感知-决策-行动闭环训练，驱动具身智能从“有限训练”迈向“无限进化”。

07、大会日程

08、报名方式

大会设置了四类电子门票，分别是主会场观众票、主会场VIP票、闭门专享票和贵宾通票。其中，主会场的座位分布如下。

四类电子门票中，主会场观众票为免费票，申请后需经审核通过方可参会；主会场VIP票、闭门专享票和贵宾通票均需购买。各类门票的详细权益可通过文末左下角「阅读原文」，直达官网进行了解。

想要现场参会的朋友可以扫描下方二维码添加小助手“泡泡”，进行门票的购买或免费申请。已添加过“泡泡”的老朋友，可以给“泡泡”私信，发送“GenAI25”即可报名。

（文：AI进修生）

2025 年 7 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复