375篇文献,深入探究推理大模型后训练技术 下午2时 2025/03/11 作者 PaperAgent 本文深入探讨了大型语言模型的后训练方法,包括微调、强化学习和测试时扩展等策略。这些技术用于优化LLMs在特定任务上的推理能力,同时讨论了各自的优势与挑战。
仅1k样本超越o1,媲美DeepSeek-R1蒸馏模型,李飞飞新作s1发布 下午7时 2025/02/06 作者 PaperAgent 一种新的语言建模方法Test-time Scaling通过测试时增加额外计算来提升性能,作者李飞飞等新作S1提出了一种简单而有效的测试时扩展方法,并展示了其实用性。