大模型靠强化学习就能无限变强?清华泼了一盆冷水

清华大学研究指出,强化学习虽能提升大模型在特定任务上的表现,但可能并未拓展其整体推理能力边界。研究通过pass@k评估发现基础模型在高尝试机会下也能追上甚至超越经过强化学习训练的模型。这表明当前RL技术主要提升的是采样效率而非新解法生成。

机器人也会挤牙膏?ManipTrans:高效迁移人类双手操作技能至灵巧手

研究团队提出ManipTrans方法,通过两阶段迁移学习实现从人类手到机械灵巧手的操作技能转移。该方法利用通用轨迹模仿器预训练模型模仿人类手部动作,并引入残差学习模块对动作进行精细调整。同时发布DexManipNet大规模数据集用于验证。

Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器

清华大学团队提出RAD优化器,该优化器通过神经网络与共形哈密顿系统的对偶性揭示了Adam的优化动力学机理,并提出了新的Relativistic Adaptive Gradient Descent (RAD)优化算法,实验表明其在多种强化学习任务中表现优于Adam。

机器人跑马拉松,到底在比什么?

全球首个‘人机共跑’半程马拉松在北京举行。18款国产机器人参与比赛,单台机器人体关节运动量高达25万次。天工Ultra和N2分别夺得冠亚军。赛事综合检验了机器人的多项技术能力,如精准控制、环境感知与自主决策等。

CVPR 2025|超强异常检测新方法!INP-Former 从单张图像中提取正常模式

清华大学和华中科技大学的研究团队提出了一种新型异常检测方法INP-Former,通过从单张测试图像中动态提取内在正常原型(INPs),并利用这些INPs指导图像重建,实现了卓越的性能和强大的泛化能力。