强化学习归档 - 第15页共26页

一图一3D世界，视频还可交互，昆仑万维「空间智能」开年首秀来了

下午12时 2025/02/14 作者机器之心

在大家纷纷将目光投向智能体的同时，另一个 AI 领域也可能迎来它的「ChatGPT 时刻」。
这个春

下午12时 2025/02/13 作者硅星人Pro

出色，但“幻觉”问题依然是它面临的一大挑战。
在Vectara HHEM人工智能幻觉测试（行业权威测

下午12时 2025/02/13 作者 PaperWeekly

X-R1 是一个低成本且易入门的强化学习训练框架，旨在降低 R1 的复现门槛。通过使用0.5B预训练模型，在4张3090/4090显卡上仅需2小时就实现了 ‘aha Moment’，展示了极小模型也能触发Aha Moment的现象。

下午11时 2025/02/12 作者量子位

分拿下！
刚刚，OpenAI发布了
关于推理模型在竞技编程中应用的研究论文报告
，论文中放出了Ope

下午11时 2025/02/12 作者机器之心

DeepScaleR-1.5B-Preview 成功复现 Deepseek-R1 的训练方法，成本仅需4500美元。该模型在AIME2024竞赛中超越了O1-Preview，展示了小模型通过强化学习也能实现飞跃的潜力。

下午11时 2025/02/12 作者极市干货

B！多机构联手巧妙应用计算最优TTS策略，不仅0.5B模型在数学任务上碾压GPT-4o，7B模型更是

下午11时 2025/02/12 作者智东西

近日，OpenAI联合创始人、前特斯拉AI总监、知名计算机科学家李飞飞的爱徒安德烈·卡帕西（Andr

上午8时 2025/02/12 作者 NLP工程化

UC伯克利团队通过RL微调改进Deepseek-R1-Distilled-Qwen-1.5B，使其在AIME基准上Pass@1准确率高达43.1%，参数量仅为1.5B且超越OpenAI o1-preview。