强化学习归档

绝对零监督Absolute Zero：类AlphaZero自博弈赋能大模型推理，全新零数据训练范式问世

上午11时 2025/05/08 作者机器之心

rning with Verifiable Rewards（RLVR）范式下涌现出一批
「Zero

下午4时 2025/05/07 作者机器之心

系统，工具学习以及大语言模型智能体等，英国爱丁堡大学和美国伊利诺伊大学香槟分校(UIUC)访问学者，

上午11时 2025/05/07 作者机器之心

AI 企业竞相追逐的焦点。
但近年来，推理效率已成为模型部署和性能的关键限制因素。
基于此，英伟达

下午4时 2025/05/06 作者新智元

新王Llama-Nemotron，是怎么训练出来的？刚刚放出的论文，把一切细节毫无保留地全部揭秘了！

下午4时 2025/05/05 作者新智元

系统解析了监督微调（SFT）、强化学习（RL）以及奖励机制、数据构建等关键技术细节。
最近，推理语言

下午4时 2025/05/03 作者量子位

首个纯多模态开源LLM Perceptrion-R1在视觉任务上取得显著成果，优化感知策略提升MLLM能力边界。

下午4时 2025/05/02 作者新智元

南加州大学团队利用LoRA+强化学习在AIME 24数学基准测试上实现超过20%的性能提升，成本仅为9美元。研究发现LoRA模型中减少计算反而能带来更好的性能。

下午2时 2025/05/01 作者小兵的AI视界

北京航空航天大学推出的小尺寸视频推理模型TinyLLaVA-Video-R1通过强化学习显著提升了小规模模型的性能，并开源了权重、代码和训练数据。该模型参数量不超过4B，在多个基准测试中表现优异，具备强大的多模态理解能力和可解释性生成能力。