北交开源o1代码版!强化学习+蒙特卡洛树搜索,源代码、精选数据集以及衍生模型通通开源

北京交通大学团队推出O1-CODER模型,专注于编码任务。该模型结合了强化学习与蒙特卡洛树搜索,显著提升了代码生成质量。研究发现,通过生成推理数据并优化策略模型,测试用例生成器的性能得到提升,平均采样通过率达到了89.2%。

清华新VLA框架加速破解具身智能止步实验室“魔咒”,LLM开销节省4-6倍 NeurIPS’24

清华大学研究团队设计的DeeR-VLA框架解决了多模态模型在机器人应用中的计算和内存消耗问题。该框架通过动态推理机制根据任务复杂度智能调节模型规模,实现了大语言模型计算成本减少5.2-6.5倍、GPU内存减少2-6倍的同时保持性能不变。

国产大模型黑马的首个推理模型来了,和 o1 PK后,我发现了AI深度思考的大问题

DeepSeek 推出 R1-Lite 推理模型预览版本,并展示了其完整思考过程。用户可以通过 DeepSeek 的 chat 平台体验该模型,同时讨论了思维链的利与弊及其在实际应用中的挑战。