清华
ICLR 2025 英伟达提出FP8训练新范式:减少40%显存占用,训练加速1.43倍
近期伯克利等机构提出COAT方法,通过动态范围扩展和混合粒度FP8精度流技术,在保持模型精度的同时显著减少FP8量化误差及激活值占用,实现了端到端内存占用减少1.54倍、训练速度提高1.43倍。
重磅!8B「扩散」大语言模型挑战Llama,一次看清全局完爆传统模型
清华、中国人民大学与蚂蚁集团联合发布LLaDA模型,采用扩散方式打破自回归垄断,性能媲美Llama 3 8B。该模型颠覆大语言模型认知,采用掩码扩散模型训练范式,实现全局视角生成;在数学问题解答、多轮对话、代码生成等方面表现出色。相关资源包括论文和项目主页。
2024 IBM博士生奖学金出炉:韩迟、卓越、张逸骅、冯尚彬等AI研究者入选
多位2024 IBM博士生奖学金得主毕业于国内高校,涉及半导体技术、人工智能等前沿领域。其中包括清华大学、浙江大学等多个知名校友来源高校的研究者。
14G跑满血DeepSeek-R1,清华最新开源力作ktransformers
清华大学开源框架KTransformers研究显示,仅需14GB GPU和382GB DRAM即可本地运行671B参数的DeepSeek-R1模型,并实现约13.69 tokens/s的推理速度。
啊?7B的DeepSeek反超R1满血版,上海AI Lab周伯文团队新成果:计算最优的Test-Time Scaling
上海AI Lab/清华哈工大/北邮团队的研究表明,通过改进Test-Time Scaling(TTS)方法,在数学推理任务上提升了小模型的性能。该研究发现最优的TTS方法高度依赖于具体的策略模型、过程奖励模型和问题难度。
让AI眼里有活主动干!清华&面壁等开源主动交互Agent新范式
清华大学与面壁团队开源新一代主动Agent交互范式,使AI具备主动观察环境和提出任务的能力。相比传统被动式Agent,主动式Agent能够预判用户需求并自主帮助解决问题。