5%参数比肩DeepSeek满血R1!北大“小”模型靠分合蒸馏,打破推理成本下限

北京大学杨仝教授团队发布FairyR1-32B模型,该模型基于DeepSeek-R1-Distill-Qwen-32B基座,通过微调与模型合并技术,在参数量大幅减少的情况下实现了数学和代码任务上的优异性能。

拒绝不必要Think:微软&北大提出第一种自适应大型混合推理模型

微软研究院与北大提出的大规模混合推理模型LHRMs能够在用户查询时自适应地决定是否进行思考,实现更快、更自然的日常交互,并在推理和通用能力方面超越现有模型的同时显著提高了效率。

百万规模数据集打造人形机器人通用大模型,实现精细动作跨平台、跨形态动作迁移丨北大人大联合发布

北大卢宗青团队在通用人形机器人动作生成领域取得突破,提出Being-M0框架和MotionLib数据集,实现了大规模且多样化的复杂人类动作生成,并验证了大数据+大模型的可行性。

ICML Spotlight MCU:全球首个生成式开放世界基准,革新通用AI评测范式

该研究由通用人工智能研究院与北京大学合作开发了一种名为MCU的生成式开放世界平台,用于评估通用智能体在复杂环境中的能力。MCU支持无限多样化的任务配置和环境变量,旨在全面测试智能体的真实能力和泛化水平,并通过高效的工具简化评测流程。论文详细介绍了MCU的设计及其功能突破。

ICML 2025 Spotlight|华为诺亚提出端侧大模型新架构MoLE,内存搬运代价降低1000倍

Mixture-of-Experts(MoE)架构尽管稀疏激活减少了计算量,但显存资源受限的端侧部署仍面临挑战。研究提出Mixture-of-Lookup-Experts(MoLE),通过将专家输入改为嵌入(token) token,利用查找表代替矩阵运算,有效降低推理开销,减少数千倍传输延迟。