强化学习归档 - 第6页共41页

有趣思考:如何带着问题去针对性学习-兼看大模型推理、强化、RAG等进展

2025年6月6日14时作者老刘说NLP

今天是2025年6月6日，星期五，北京晴。文章回顾了大模型相关技术进展，包括针对性学习、推理数据收集、多模态应用及强化学习评估偏差等内容。关键点在于明确问题并针对性学习，学会提问和理论与实践结合，以提升大模型性能。

2025年6月5日23时作者量子位

近期清华大学团队提出的研究表明，在强化学习训练大模型时，仅使用20%的高熵token就能显著提升模型性能。研究指出80%低熵token会影响模型推理能力，并可能起到负面作用。

2025年6月5日16时作者新智元

而算力浪费和集群效率低成为一大难题。这次，华为团队祭出两大黑科技直接破局。不仅在CloudMatri

2025年6月5日16时作者机器之心

进的知识仍然是一项挑战。如何让模型在面对复杂的知识密集型问题时，能够自主决策获取外部知识的策略？
华

2025年6月5日8时作者机器之心

NVIDIA团队提出ProRL框架，在2000步以上长期强化学习基础上，大幅提升大语言模型的推理能力。ProRL训练后模型在逻辑谜题等任务中表现出显著进步，不仅提高了解题准确率，还能生成新解法。研究揭示了长期RL训练的重要性及其对模型边界扩展的影响。

2025年5月31日23时作者机器之心

融入推理过程。它不仅 “看图”，还能 “用图思考”，开启了视觉与文本推理深度融合的问题求解方式。例如

2025年5月31日16时作者量子位

阿里通义实验室发布MaskSearch预训练框架，提升大模型推理搜索能力，在多个开放域问答数据集上显著性能提升。该框架结合检索增强型掩码预测任务与监督微调、强化学习两种训练方法。

2025年5月30日16时作者量子位

机器狗通过强化学习学会了打羽毛球，最高挥拍速度达12米/秒，在与人类选手的协作比赛中展示了精准和类人行为。研究结果发表在Science Robotics上。