北交开源o1代码版!强化学习+蒙特卡洛树搜索,源代码、精选数据集以及衍生模型通通开源

北京交通大学团队推出O1-CODER模型,专注于编码任务。该模型结合了强化学习与蒙特卡洛树搜索,显著提升了代码生成质量。研究发现,通过生成推理数据并优化策略模型,测试用例生成器的性能得到提升,平均采样通过率达到了89.2%。

清华新VLA框架加速破解具身智能止步实验室“魔咒”,LLM开销节省4-6倍 NeurIPS’24

清华大学研究团队设计的DeeR-VLA框架解决了多模态模型在机器人应用中的计算和内存消耗问题。该框架通过动态推理机制根据任务复杂度智能调节模型规模,实现了大语言模型计算成本减少5.2-6.5倍、GPU内存减少2-6倍的同时保持性能不变。