谷歌Gemini 2.0归来仍然是Agentic!
谷歌发布Gemini 2.0 Flash AI多模态模型,在快速响应下提供增强性能,支持图像、视频及音频等多模式输入输出,能调用Google搜索和代码执行工具。项目Astra探索通用AI助手功能,Project Mariner从浏览器开始研究人机交互未来;Jules帮助开发人员。
谷歌发布Gemini 2.0 Flash AI多模态模型,在快速响应下提供增强性能,支持图像、视频及音频等多模式输入输出,能调用Google搜索和代码执行工具。项目Astra探索通用AI助手功能,Project Mariner从浏览器开始研究人机交互未来;Jules帮助开发人员。
HtmlRAG通过使用HTML而非纯文本作为外部知识的格式,在长上下文环境下提高了检索系统的效果,并在多个问答数据集上优于或等同于现有基于纯文本的方法。
本文综述了LLM驱动的GUI智能体的发展和进步,讨论了它们的历史演变、核心组件和技术,并展示了智能体如何通过自然语言处理技术执行多种任务,包括Word、Photos、浏览器、Adobe Acrobat和PowerPoint操作等。
一周前谷歌的Gemini-Exp-1114模型取代GPT-4o成为AI多模态大模型榜首。但GPT-4o更新后再次夺回第一。谷歌和OpenAI在多模态大模型上的竞争激烈,技术正向原生多模态方向发展。多位审稿人将在12月6日带来关于多模态大模型的公开课。
Mooncake是Kimi的服务平台,后者是由Moonshot AI提供的大型语言模型服务。基于KVCache的解耦架构和预测性早期拒绝策略,Mooncake在高过载场景下实现了显著的吞吐量增加,并且通过改进的传输引擎支持灵活的数据传输。