GUI智能体“大脑”升级!浙大&港理工等提出InfiGUI-R1,用强化学习实现深度推理

文章介绍了InfiGUI-R1,一个基于Actor2Reasoner框架训练的GUI智能体。该模型旨在提升AI在多步骤操作任务中的能力和可靠性,并能像人类一样先思考后行动。通过推理注入和深思熟虑增强两阶段训练方法,30亿参数的InfiGUI-R1-3B模型在多个基准测试中表现出色。

挑战AI数学推理极限!大规模形式化数学基准FormalMATH发布,最强模型成功率仅16%

香港中文大学等机构联合推出FormalMATH基准测试,包含5560道经过验证的数学题。尽管大语言模型在自然语言处理和代码生成领域表现优异,但在数学定理证明任务中成功率仅为16.46%。研究提出了一套三阶段过滤框架用于自动形式化和语义一致性检测,并分析了现有LLM证明器的表现,发现代数较强而微积分较弱,存在滥用自动化策略的问题。

大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%

BrowseComp-ZH团队发布新基准测试集,对20多个主流大模型进行中文网页能力测试,结果显示多数模型在中文互联网检索上准确率低于10%,仅有少数能突破20%。研究揭示了模型在中文信息环境中的“死角”,强调了推理能力和多轮策略的重要性,并指出搜索功能的不当使用可能误导模型。

浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误

InfiGUI-R1 是基于 Actor2Reasoner 框架训练的一个 GUI 智能体,旨在提升其规划和反思能力。该模型通过小规模参数量实现了出色的表现,包括强大的 GUI 元素定位能力和复杂任务执行能力。