Deepresearch核心技术:如何通过强化学习增强推理大模型搜索规划及反馈能力? 2025年4月5日14时 作者 老刘说NLP 复现和应用越来越多,也对大模型的规划能力有了越来越多的要求。 假设大模型能力很强,我们可以使用 Co
Fin-R1:通过强化学习驱动的金融推理大模型 2025年3月23日8时 作者 PyTorch研习社 张立文教授与其领衔的金融大语言模型课题组(SUFE-AIFLM-Lab)联合财跃星辰研发并开源发布。
无需训练,100%完美检索!LLM练出「火眼金睛」,InfiniRetri超长文本一针见血 2025年3月16日23时 作者 新智元 ,在检索任务「大海捞针」(Needle-in-a-Haystack)测试中,新方法InfiniRet
清华团队提出HiAR-ICL:基于蒙特卡洛树搜索的全新上下文学习推理范式 2024年12月5日20时 作者 PaperWeekly 结论写在前面(太长不看版) HiAR-ICL 通过引入高级推理模式到上下文学习(In-context