只动嘴,就能操控电脑界面,美团和浙大做到了。他们联合推出的GUIRoboTron-Speech,是首个可用语音+截图实现端到端决策的GUI智能体,真正让人“用说的”操作界面,不用再敲字或点击。
这套系统的亮点包括:
-
高质量语音数据集:用TTS模型把海量文本转为多音色、多风格的语音指令,解决训练数据稀缺问题。
-
两阶段训练机制:先学“听懂”和“找准界面”,再学“多步骤任务执行”。
-
混合指令训练策略:语音+文本交替输入,打破模型只信文字的偏见。
实验显示,语音驱动的GUI智能体在多个评测基准上超越纯文本方法。尤其是在用户指令明确的短句场景中,语音指令表现更优。

参考文献:
[1] https://github.com/GUIRoboTron/GUIRoboTron-Speech
[2] https://weibo.com/ttarticle/p/show?id=2309405179267020881930
知识星球服务内容:Dify源码剖析及答疑,Dify对话系统源码,NLP电子书籍报告下载,公众号所有付费资料。加微信buxingtianxia21进NLP工程化资料群。
(文:NLP工程化)