蒙特卡洛树搜索归档

一篇介绍推理模型的 test-time scaling 技术的文章

上午8时 2025/04/25 作者 NLP工程化

文章介绍了测试时间缩放技术在提升大型语言模型推理性能方面的应用和方法，包括思维链、树形思维、自我一致性与集成投票等方法。

MLNLP社区发布一篇关于Test-Time Scaling（TTS）的survey论文，介绍大语言模型在测试阶段增加计算资源的方法，让模型能够更智能地解答问题。

下午4时 2025/02/23 作者机器之心

将扩散模型与蒙特卡洛树搜索相结合，提出蒙特卡洛树扩散（MCTD），实现高效和可扩展的规划。

上午8时 2025/01/14 作者 NLP工程化

MCTS-GSM8k-Demo结合蒙特卡洛树搜索和大型语言模型解决数学问题，提升解题效率。项目可从Github及B站获取。

下午2时 2024/12/09 作者量子位

北京交通大学团队推出O1-CODER模型，专注于编码任务。该模型结合了强化学习与蒙特卡洛树搜索，显著提升了代码生成质量。研究发现，通过生成推理数据并优化策略模型，测试用例生成器的性能得到提升，平均采样通过率达到了89.2%。

下午1时 2024/12/11 上午11时 2024/11/23 作者 PaperAgent

阿里开源Marco-o1，旨在解决缺乏明确标准且奖励难以量化的开放式问题。Marco-o1结合链式思考、蒙特卡洛树搜索等技术增强推理能力，在MGSM上提高了准确性，并展示了扩展解决方案空间和利用更细粒度动作策略的优势。