强化学习归档 - 第13页共26页

仅靠逻辑题，AI数学竞赛能力飙升！微软、九坤投资：7B小模型也能逼近o3-mini

下午4时 2025/02/25 作者机器之心

多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，

下午4时 2025/02/23 作者机器之心

波士顿动力机器狗Spot通过强化学习提高了3倍速度至18.7千米/小时，超越了小型犬的平均奔跑速度。研究人员发现限制机器人运动速度的主要因素是电池供电能力，并提出增加四脚同时离地的飞行阶段可提高速度和稳定性。

下午11时 2025/02/22 作者 PaperWeekly

可信人工智能
开篇
在强化学习（RL）中，如果我们只知道“做对了能拿多少分”，那往往还不够，因为
单

下午4时 2025/02/22 作者新智元

的顿悟时刻了？来自荷兰的开发者采用轻量级的RL算法Reinforce-Lite，把复刻成本降到了史上

下午11时 2025/02/19 作者机器之心

多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，

下午12时 2025/02/19 作者硅星人Pro

用20万张卡训出的Grok3的同一天，两篇与马氏大力出奇迹“相反”路线的论文也发表在了技术社区。
在

上午8时 2025/02/19 作者 NLP工程化

Awesome-RL-based-LLM-Reasoning 是一个专注于提升大语言模型推理能力的资源库，汇集了最新的相关论文、幻灯片和开源项目，涵盖多种RL方法和LLM推理优化技巧。

下午4时 2025/02/18 作者 AIGC开放社区

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言等大模型的发展和应用落地。马斯克旗下xAI发布最新大模型Gork3，性能远超OpenAI的LLM，展示了深度学习与强化学习结合的应用。

下午2时 2025/02/18 作者 AI先锋官

百度接入DeepSeek打破闭源路线，腾讯跟进接入微信。阿里开源模式加持。DeepSeek带来行业重塑，各家大厂纷纷调整策略应对冲击。

MLNLP是国内外知名的人工智能社区，致力于推动自然语言处理与机器学习领域的交流与发展。2025年出现的DeepSeek模型通过技术革新颠覆了行业现状，展示了技术实力和成本优势。