谷歌Gemini 2.0归来仍然是Agentic!

谷歌推出面向智能体时代(Agentic era)的全新AI多模态大模型Gemini 2.0
  • Gemini 2.0 Flash 以 1.5 Flash 的成功为基础,在同样快速的响应时间下具有增强的性能。
  • Gemini 2.0 Flash 在关键基准测试中甚至比 1.5 Pro 更快,速度是 1.5 Pro 的两倍
  • Gemini 2.0 Flash 支持图像、视频和音频等多模式输入外,还支持多模式输出,例如与文本混合的原生生成的图像和可操纵的文本转语音 (TTS) 多语言音频。
  • Gemini 2.0 Flash还可以原生调用 Google 搜索、代码执行以及第三方用户定义函数等工具。

Gemini 2.0 Flash的原生用户界面操作能力,以及多模式推理、长上下文理解、复杂指令跟踪和规划、组合函数调用和原生工具使用,共同作用以实现新一类的Agent体验
谷歌正在通过一系列原型探索AI实际应用,可以帮助人们完成任务并完成工作。包括对 Project Astra 的更新,旨在探索通用人工智能助手的未来功能;新 Project Mariner,它从浏览器开始探索人机交互的未来;以及 Jules,一个可以帮助开发人员的人工智能代码智能体。
Astra 项目:在现实世界中使用多模式理解的Agent
  • 更好的对话:Project Astra 现在能够使用多种语言和混合语言进行交谈,并且能够更好地理解口音和不常见的单词。
  • 新工具用途:借助 Gemini 2.0,Project Astra 可以使用 Google 搜索、镜头和地图,使其作为您日常生活中的助手更加有用。
  • 更好的记忆:改进了 Project Astra 的记忆能力,同时让您掌控一切。它现在拥有长达 10 分钟的会话记忆,可以记住您过去与其进行的更多对话,因此可以更好地为您量身定制。
Project Mariner:能帮你完成复杂任务的Agent
Project Mariner 是一个使用 Gemini 2.0 构建的早期研究原型,旨在从浏览器开始探索人机交互的未来。作为研究原型,它能够理解和推理浏览器屏幕上的信息,包括像素和文本、代码、图像和表单等网络元素,然后通过实验性的 Chrome 扩展程序使用这些信息为您完成任务。
游戏和其他领域的Agent
Google DeepMind长期以来 一直使用游戏来帮助 AI 模型更好地遵循规则、规划和逻辑。使用 Gemini 2.0 构建了Agent,可以帮助您在视频游戏的虚拟世界中导航。它可以仅根据屏幕上的动作推断游戏,并在实时对话中提供下一步操作的建议。

https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#project-mariner

(文:PaperAgent)

欢迎分享

发表评论