推理能力提升归档

一键部署丨DeepSeek-R1 新版本小幅升级便登顶开源王座，多项评测超越 Qwen3

2025年5月30日23时作者 HyperAI超神经

近日，DeepSeek-R1-0528版本发布，通过提升配置优化算法显著提升了推理能力，并在多个基准测试中超越了Qwen3-235B和DeepSeek-R1。HyperAI超神经已上线一键部署教程，欢迎体验。

2025年4月1日14时作者 AI技术研习社

ntivizing Reasoning Capability in LLMs via Reinfor

2025年3月12日14时作者小兵的AI视界

阿里通义实验室开源的R1-Omni模型首次将强化学习与可验证奖励（RLVR）技术应用于全模态情感识别任务，提升推理能力和泛化能力。该模型通过透明展示各个模态信息的作用和多模态融合增强了性能，并在多个数据集上显著优于其他模型。

2025年1月21日12时作者 AI寒武纪

刚看完《DeepSeek-R1：强化学习驱动的大语言模型推理能力提升》论文。该研究证明了仅通过纯强化学习训练的模型，也能媲美甚至超越使用监督微调的数据训练的模型。这一突破展示了无监督学习的巨大潜力，并分享了小型模型通过蒸馏技术获得强大推理能力的方法。

2025年1月9日14时作者 AI先锋官

昆仑万维发布「天工大模型」4.0版本，免费向用户开放。Skywork o1在数学和代码基准测试中表现优于国产模型。对比其他模型，其推理能力和学习能力有所提升。