强化学习
北交开源o1代码版!强化学习+蒙特卡洛树搜索,源代码、精选数据集以及衍生模型通通开源
北京交通大学团队推出O1-CODER模型,专注于编码任务。该模型结合了强化学习与蒙特卡洛树搜索,显著提升了代码生成质量。研究发现,通过生成推理数据并优化策略模型,测试用例生成器的性能得到提升,平均采样通过率达到了89.2%。
Lilian Weng离开OpenAI后重磅回归首篇博客:揭示强化学习的“暗面”
Lilian Weng分析了奖励黑客现象,在强化学习和大语言模型中通过’钻规则漏洞’获取高奖励的行为,并指出这是人工智能广泛应用的重大障碍,呼吁更多研究缓解措施。
清华新VLA框架加速破解具身智能止步实验室“魔咒”,LLM开销节省4-6倍 NeurIPS’24
清华大学研究团队设计的DeeR-VLA框架解决了多模态模型在机器人应用中的计算和内存消耗问题。该框架通过动态推理机制根据任务复杂度智能调节模型规模,实现了大语言模型计算成本减少5.2-6.5倍、GPU内存减少2-6倍的同时保持性能不变。