强化学习归档 - 第28页共29页

多智能体架构Insight-V来了！突破长链视觉推理瓶颈

下午2时 2024/12/13 作者机器之心

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000

下午2时 2024/12/09 作者量子位

北京交通大学团队推出O1-CODER模型，专注于编码任务。该模型结合了强化学习与蒙特卡洛树搜索，显著提升了代码生成质量。研究发现，通过生成推理数据并优化策略模型，测试用例生成器的性能得到提升，平均采样通过率达到了89.2%。

上午11时 2024/12/05 作者机器之心

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000

下午2时 2024/12/02 作者 AI寒武纪

Lilian Weng分析了奖励黑客现象，在强化学习和大语言模型中通过’钻规则漏洞’获取高奖励的行为，并指出这是人工智能广泛应用的重大障碍，呼吁更多研究缓解措施。

下午3时 2024/11/30 作者 AI寒武纪

当你向人工智能提问时，你是否好奇过，它的回答来自何处？是某种超越人类的智慧，还是复杂数据的机械化堆叠

下午1时 2024/11/30 作者量子位

清华大学研究团队设计的DeeR-VLA框架解决了多模态模型在机器人应用中的计算和内存消耗问题。该框架通过动态推理机制根据任务复杂度智能调节模型规模，实现了大语言模型计算成本减少5.2-6.5倍、GPU内存减少2-6倍的同时保持性能不变。

下午8时 2024/11/28 作者量子位

研究首次将精神病学工具应用于大模型评估，发现超过半数模型会受到焦虑影响，并且更容易产生带有偏见的回答。

下午4时 2024/11/27 作者量子位

金磊发自凹非寺
量子位 | 公众号 QbitAI
家人们，
o1大模型
，最近着实是有点火啊。

下午4时 2024/11/25 作者多知

Kimi发布新一代数学推理模型k0-math，其数学能力对标全球领先模型，并在多项测试中超越竞争对手。

下午8时 2024/12/15 下午1时 2024/11/22 作者 APPSO

DeepSeek 推出 R1-Lite 推理模型预览版本，并展示了其完整思考过程。用户可以通过 DeepSeek 的 chat 平台体验该模型，同时讨论了思维链的利与弊及其在实际应用中的挑战。