强化学习算法归档

MindOmni：腾讯联合清华等机构推出的多模态大语言模型，推理生成能力卓越

2025年6月29日14时作者小兵的AI视界

腾讯联合清华大学深圳国际研究生院等机构推出的多模态大语言模型MindOmni，在视觉理解、文本到图像生成、推理生成等方面表现卓越。它采用三阶段训练策略和强化学习算法优化了模型的推理生成能力，支持内容创作、教育、娱乐等多个领域应用。

2025年6月16日16时作者机器之心

七个大模型在2025年数学新课标I卷中的成绩公布，Gemini 2.5 Pro表现最佳；小米开源模型MiMo-VL在7B参数下击败Qwen-3-235B。

2025年5月24日16时作者新智元

nThinker」，首度打破围棋AI推理黑盒，实现用自然语言解释落子逻辑，具备职业3-5段棋力。依托

2025年2月18日12时作者机器之心

复旦大学知识工场实验室团队基于 GRPO 算法高效复现了 R1-zero 自发反思能力，项目代码简洁，仅依赖基础库实现，训练 7B 模型成本低至 7.3 元。

2025年2月7日12时作者量子位

John Schulman从OpenAI跳槽到Mira Murati的新创业公司，该公司的工作与AGI相关，并已吸引多名顶尖研究员和工程师。

2025年1月31日14时作者小兵的AI视界

2025
年
1
月
20
日，深度求索公司正式发布了其最新的人工智能推理模型
DeepSeek-R

2025年1月25日12时作者 APPSO

阿里的云服务器ECS服务升级，提供更高性能和更优价格，助力企业快速部署和管理弹性计算资源。