14B检索能力超过Google Search,阿里ZeroSearch通过RL激发LLM检索推理能力~
阿里通义Lab提出的ZEROSEARCH是首个无需与真实搜索引擎交互的强化学习框架,旨在激励语言模型提升搜索能力。
阿里通义Lab提出的ZEROSEARCH是首个无需与真实搜索引擎交互的强化学习框架,旨在激励语言模型提升搜索能力。
微软开源了三款小参数模型Phi-4 Reasoning、mini版本Phi-4 mini-reasoning和强化学习版本Phi-4 reasoning-plus,算力消耗低,在Windows系统生态中表现突出。
了?大语言模型(LLM)推理需要强化学习(RL)来「加 buff」。
著名 AI 研究者和博主 Se
近期文章讨论了关于推理大模型以及DeepMath-103K数据集的相关进展和思考。主要内容包括推理大模型的研究方向、推理模型的数据集构建方案,以及RAG方向的发展与应用。