GUIRoboTron-Speech:首个端到端语音交互智能体

只动嘴,就能操控电脑界面,美团和浙大做到了。他们联合推出的GUIRoboTron-Speech,是首个可用语音+截图实现端到端决策的GUI智能体,真正让人“用说的”操作界面,不用再敲字或点击。

这套系统的亮点包括:

  • 高质量语音数据集:用TTS模型把海量文本转为多音色、多风格的语音指令,解决训练数据稀缺问题。

  • 两阶段训练机制:先学“听懂”和“找准界面”,再学“多步骤任务执行”。

  • 混合指令训练策略:语音+文本交替输入,打破模型只信文字的偏见。

实验显示,语音驱动的GUI智能体在多个评测基准上超越纯文本方法。尤其是在用户指令明确的短句场景中,语音指令表现更优。

参考文献:
[1] https://github.com/GUIRoboTron/GUIRoboTron-Speech
[2] https://weibo.com/ttarticle/p/show?id=2309405179267020881930



知识星球服务内容:Dify源码剖析及答疑,Dify对话系统源码,NLP电子书籍报告下载,公众号所有付费资料。加微信buxingtianxia21进NLP工程化资料群

(文:NLP工程化)

发表评论