谷歌Gemini 2.0归来仍然是Agentic！

谷歌推出面向智能体时代（Agentic era）的全新AI多模态大模型Gemini 2.0

Gemini 2.0 Flash 以 1.5 Flash 的成功为基础，在同样快速的响应时间下具有增强的性能。
Gemini 2.0 Flash 在关键基准测试中甚至比 1.5 Pro 更快，速度是 1.5 Pro 的两倍。
Gemini 2.0 Flash 支持图像、视频和音频等多模式输入外，还支持多模式输出，例如与文本混合的原生生成的图像和可操纵的文本转语音 (TTS) 多语言音频。
Gemini 2.0 Flash还可以原生调用 Google 搜索、代码执行以及第三方用户定义函数等工具。

Gemini 2.0 Flash的原生用户界面操作能力，以及多模式推理、长上下文理解、复杂指令跟踪和规划、组合函数调用和原生工具使用，共同作用以实现新一类的Agent体验。

谷歌正在通过一系列原型探索AI实际应用，可以帮助人们完成任务并完成工作。包括对 Project Astra 的更新，旨在探索通用人工智能助手的未来功能；新 Project Mariner，它从浏览器开始探索人机交互的未来；以及 Jules，一个可以帮助开发人员的人工智能代码智能体。

Astra 项目：在现实世界中使用多模式理解的Agent

更好的对话：Project Astra 现在能够使用多种语言和混合语言进行交谈，并且能够更好地理解口音和不常见的单词。
新工具用途：借助 Gemini 2.0，Project Astra 可以使用 Google 搜索、镜头和地图，使其作为您日常生活中的助手更加有用。
更好的记忆：改进了 Project Astra 的记忆能力，同时让您掌控一切。它现在拥有长达 10 分钟的会话记忆，可以记住您过去与其进行的更多对话，因此可以更好地为您量身定制。

Project Mariner：能帮你完成复杂任务的Agent

Project Mariner 是一个使用 Gemini 2.0 构建的早期研究原型，旨在从浏览器开始探索人机交互的未来。作为研究原型，它能够理解和推理浏览器屏幕上的信息，包括像素和文本、代码、图像和表单等网络元素，然后通过实验性的 Chrome 扩展程序使用这些信息为您完成任务。

游戏和其他领域的Agent

Google DeepMind长期以来一直使用游戏来帮助 AI 模型更好地遵循规则、规划和逻辑。使用 Gemini 2.0 构建了Agent，可以帮助您在视频游戏的虚拟世界中导航。它可以仅根据屏幕上的动作推断游戏，并在实时对话中提供下一步操作的建议。

https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#project-mariner

（文：PaperAgent）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复