30亿参数归档

GUI智能体“大脑”升级！浙大&港理工等提出InfiGUI-R1，用强化学习实现深度推理

下午4时 2025/05/13 作者 PaperWeekly

文章介绍了InfiGUI-R1，一个基于Actor2Reasoner框架训练的GUI智能体。该模型旨在提升AI在多步骤操作任务中的能力和可靠性，并能像人类一样先思考后行动。通过推理注入和深思熟虑增强两阶段训练方法，30亿参数的InfiGUI-R1-3B模型在多个基准测试中表现出色。

下午4时 2025/05/02 作者机器之心

InfiGUI-R1 是基于 Actor2Reasoner 框架训练的一个 GUI 智能体，旨在提升其规划和反思能力。该模型通过小规模参数量实现了出色的表现，包括强大的 GUI 元素定位能力和复杂任务执行能力。

上午8时 2025/03/02 作者 NLP工程化

高效、可扩展的强化学习训练框架Search-R1，支持3B规模的基础LLM，通过规则化奖励机制让LLM自主学会推理和搜索，提供完整的训练流程和工具支持。