一篇78页大模型GUI Agents全面综述~
本文综述了LLM驱动的GUI智能体的发展和进步,讨论了它们的历史演变、核心组件和技术,并展示了智能体如何通过自然语言处理技术执行多种任务,包括Word、Photos、浏览器、Adobe Acrobat和PowerPoint操作等。
本文综述了LLM驱动的GUI智能体的发展和进步,讨论了它们的历史演变、核心组件和技术,并展示了智能体如何通过自然语言处理技术执行多种任务,包括Word、Photos、浏览器、Adobe Acrobat和PowerPoint操作等。
一周前谷歌的Gemini-Exp-1114模型取代GPT-4o成为AI多模态大模型榜首。但GPT-4o更新后再次夺回第一。谷歌和OpenAI在多模态大模型上的竞争激烈,技术正向原生多模态方向发展。多位审稿人将在12月6日带来关于多模态大模型的公开课。
Mooncake是Kimi的服务平台,后者是由Moonshot AI提供的大型语言模型服务。基于KVCache的解耦架构和预测性早期拒绝策略,Mooncake在高过载场景下实现了显著的吞吐量增加,并且通过改进的传输引擎支持灵活的数据传输。
微软发布LazyGraphRAG简化成本结构,相比完整GraphRAG成本低0.1%。其利用NLP提取概念及其共现,并采用图形统计优化概念图和分层社区结构。评测显示,在成本和质量上超越其他方法,性能优于包括标准向量RAG、RAPTOR、GraphRAG本地/全局搜索和DRIFT在内的多个选项。
在今年的Microsoft Ignite 2024上,企业通过Copilot Studio创建了数万智能体,并且可以使用Azure目录中的1800个LLM模型。微软还宣布将在Microsoft 365中引入新的智能体,包括用于项目管理的新项目经理智能体、协作会议中的新Facilitator智能体、帮助员工理解和分享知识的Agent以及提供自助服务支持的员工自助服务智能体。