idea满满的最新Test-Time Scaling综述!全面描述What, How, Where和How Well的问题
MLNLP社区发布一篇关于Test-Time Scaling(TTS)的survey论文,介绍大语言模型在测试阶段增加计算资源的方法,让模型能够更智能地解答问题。
MLNLP社区发布一篇关于Test-Time Scaling(TTS)的survey论文,介绍大语言模型在测试阶段增加计算资源的方法,让模型能够更智能地解答问题。
MCTS-GSM8k-Demo结合蒙特卡洛树搜索和大型语言模型解决数学问题,提升解题效率。项目可从Github及B站获取。
北京交通大学团队推出O1-CODER模型,专注于编码任务。该模型结合了强化学习与蒙特卡洛树搜索,显著提升了代码生成质量。研究发现,通过生成推理数据并优化策略模型,测试用例生成器的性能得到提升,平均采样通过率达到了89.2%。
阿里开源Marco-o1,旨在解决缺乏明确标准且奖励难以量化的开放式问题。Marco-o1结合链式思考、蒙特卡洛树搜索等技术增强推理能力,在MGSM上提高了准确性,并展示了扩展解决方案空间和利用更细粒度动作策略的优势。