GUIRoboTron-Speech团队 投稿
量子位 | 公众号 QbitAI
只需要动动嘴就可以驱动GUI代理?
由美团和浙江大学联合推出的GUIRoboTron-Speech——让用户解放双手,直接对计算机“发号施令”。

这是首个能够直接利用语音指令和设备屏幕截图进行端到端(End-to-End)决策的自主GUI智能体,旨在为用户提供更直接、高效且无障碍的交互体验。

从文本到语音,智能代理的下一次进化
当前,以大型语言模型(LLMs)为核心的自主GUI智能体,已能通过文本指令自动执行跨应用、多步骤的复杂任务,极大地提升了用户的工作效率。但这种对文本的依赖,限制了其在更广泛场景下的应用。
试想一个常见的家庭场景:在对家中的公用电脑发出指令“打开我的浏览器”时,一个仅能理解文本的智能体将不知所措——它无法分辨指令发出者是家庭中的哪一位成员,自然不知道什么是“我的”浏览器。
然而,一个能够直接处理语音的智能体,则可以通过分析独特的声纹特征,准确识别指令发出者的身份,并打开该成员的个性化Google浏览器界面。
这正是语音模态所蕴含的独特价值——它不仅传递了指令内容,更包含了身份、情绪等丰富的非言语线索,而这些对于实现真正个性化和智能化的交互至关重要。

传统的解决方案,如采用“语音识别(ASR)模型转录+文本GUI代理”的级联方式,不仅会增加系统的计算负担和延迟,更会在转录过程中丢失宝贵的声学信息。
而GUIRoboTron-Speech通过构建端到端的语音GUI代理,可直接利用语音指令和设备屏幕截图进行决策。
构建端到端的语音GUI代理
GUIRoboTron-Speech团队设计了一套严谨而创新的研发路径,其核心方法可概括为以下几个关键步骤:

第一步,高质量语音数据集的生成
面对业界缺乏用于训练GUI智能体的语音指令数据集的挑战,研究团队提出并验证了一种高效的解决方案。他们利用一个先进的随机音色文本转语音(TTS)模型,将现有的大规模文本指令数据集,转换为包含多种说话人风格和音色的高质量语音指令数据集。这一策略不仅成功解决了数据稀缺的难题,也为后续模型的训练奠定了坚实的基础。
第二步,渐进式训练框架:分阶段赋能
为了让模型逐步掌握复杂的能力,GUIRoboTron-Speech的训练过程被划分为两个核心阶段:
基础Gounding阶段(Grounding TrainingStage):在此阶段,模型的核心任务是学习建立语音指令与GUI界面视觉元素之间的精确对应关系。即当听到“点击‘确定’按钮”时,模型需要准确理解指令的意图,并在截图中定位到“确定”按钮的视觉特征与坐标。
规划Planning阶段(Planning Training Stage):在掌握了基础的“听说看”能力后,模型进入规划与推理训练。在这一阶段,它将学习如何理解并执行多步骤的复杂任务,例如“先登录账号,然后找到最新的邮件并打开附件”,展现出作为智能代理的逻辑推理与任务规划能力。
第三步,启发式混合指令训练策略
由于预训练的基座模型(Foundation Models)大多在以文本为核心的数据上进行训练,存在着严重的模态不平衡(Modality Imbalance)问题,即模型可能在训练中倾向于依赖其更为熟悉的文本信息,而忽略新引入的语音模态。
为解决此问题,研究团队独创了一种启发式混合指令训练策略(Heuristic Mixed-instruction Training Strategy)。该策略在训练过程中,巧妙地混合使用语音指令和文本指令。
通过这种方式,强制模型同等地关注并处理来自两种不同模态的输入,有效缓解了模态偏见,确保模型能够稳健地从语音信号中直接提取和理解指令意图。
性能评估

使用不同模态的指令进行grounding能力训练,通过性能对比可以看到,直接使用speec-based指令相比text-based指令会低1.6%的平均定位精度,而使用混合指令训练策略可以缓解预训练多模态基座的模态不平衡现象,相比text指令甚至取得了更好的性能。

在planning能力训练上,基于grounding阶段混合指令训练得到的checkpoint,speech-based指令相比text-based指令也取得了更好的性能。
此外,GUIRoboTro-Speech在与同参数量级和训练数据源的基线对比下,同样取得了领先的地位。
在AndroidControlLow上使用公共数据时,GUIRoboTron-Speech在所有方法中实现了最高的平均成功率(+1.3%),在AndroidControl-High上,它在所有SOTAs中实现了最高的平均成功率(+7.8%)。在GUI-Odyssey上,它的排名仅次于使用内部数据的UI-TARS。
这些结果表明,GUIRoboTron-Speech作为接受用户语音指令的GUI代理,具有很高的可行性,能够通过多轮推理和动作预测实现用户目标。这表明speech-based指令在GUI Agent这类用户意图清晰的场景下的可能性。

最后,GUIRoboTro-Speech团队还针对指令长度对GUI Agent任务执行成功率的影响做了分析,发现在指令长度较短(用户意图清晰)的场景,speech-based指令相比text-based指令能取得更好的表现,然而随着指令长度上升,text-based指令展现出其承载复杂用户意图的特质。
如何更好的承载复杂的用户指令以取得稳定的任务成功率,将是speech-based GUI Agent未来的方向之一。
联系方式:wenkangh@zju.edu.cn
论文链接:https://arxiv.org/abs/2506.11127
Github仓库链接:https://github.com/GUIRoboTron/GUIRoboTron-Speech
附:美团招聘实习生
美团-基础研发平台-实习生招聘(优秀者可推荐至北斗计划)
岗位1:面向用户交互图形界面 (GUI) 的自动化屏幕操作,如mobile use & computer use agent & embody agent,探索大规模模型训练方案和端到端强化学习方案,以及高效的自动化agent轨迹合成技术。
岗位职责1:
1.具备良好的工程能力将算法技术转化为工程demo
2.端到端强化学习技术设计和落地,基于mobile、pc环境实现多步骤动作轨迹的在线强化学习调优,实现data-free的智能体优化方案落地
3.2D/3D世界模型的探索和技术落地,如GUI界面的页面转换逻辑和具身领域的物理状态转变逻辑
4.多智能体交互方案设计和落地,提升智能体的planning、memory、tool_calling等能力的覆盖
5.产出高水平的论文
——————————————————————————————
岗位2: 面向chart、table等结构化数据的多模态理解和代码交互能力,具体任务为chartQA和chart2Coder,探索大规模高效数据合成方案和类GRPO的强化微调技术
岗位职责2:
1.通过强化微调技术提升图表任务chartQA和chart2Coder的推理性能和开源评测水平
2.设计有价值的图表交互方式并形成自建评测方案,提升图表大模型的评测多样性
3.完善现有图表数据和评测数据的复杂推理水平,探索step-by-step的复杂图表推理方法和代码生成技术
4.产出高水平的论文
要求:
1-有良好的编程能力和不错的多模态大模型微调经验
2-有相关经验和开源经历者优先
contact:mailto:zengzhixiong@meituan.com
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
🌟 点亮星标 🌟
(文:量子位)