GUIRoboTron-Speech：首个端到端语音交互智能体

只动嘴，就能操控电脑界面，美团和浙大做到了。他们联合推出的GUIRoboTron-Speech，是首个可用语音+截图实现端到端决策的GUI智能体，真正让人“用说的”操作界面，不用再敲字或点击。

这套系统的亮点包括：

实验显示，语音驱动的GUI智能体在多个评测基准上超越纯文本方法。尤其是在用户指令明确的短句场景中，语音指令表现更优。

参考文献：
[1] https://github.com/GUIRoboTron/GUIRoboTron-Speech
[2] https://weibo.com/ttarticle/p/show?id=2309405179267020881930

知识星球服务内容：Dify源码剖析及答疑，Dify对话系统源码，NLP电子书籍报告下载，公众号所有付费资料。加微信buxingtianxia21进NLP工程化资料群。

（文：NLP工程化）