谷歌放大招推出Gemini 2.0，AI模型进入Agentic时代！

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“外挂”，所以创建了“AI信息Gap”这个公众号，专注于分享AI全维度知识，包括但不限于AI科普，AI工具测评，AI效率提升，AI行业洞察。关注我，AI之路不迷路，2024我们一起变强。

和OpenAI今天不痛不痒的更新相比，谷歌这次明显来的更猛烈一些。

北美时间12月11日，谷歌不那么高调地（和OpenAI相比）接连发布多项更新，其中包括推出新一代系列模型Gemini 2.0，其中Gemini 2.0 Flash作为该系列的首发模型，主打一个“又快又强”，在保持1.5 Flash快速响应的同时，性能进一步提升，甚至在部分基准测试中超越了1.5 Pro。

同时，谷歌今天官宣了三个AI Agent助手的研究原型：通用助手Project Astra，浏览器助手Project Mariner，以及代码助手Jules，旨在引领AI模型进入“Agentic 时代”。

要知道，就在几天前谷歌DeepMind团队才刚刚发布了目前在LMSYS聊天机器人排行榜（Chatbot Arena Leaderboard）排名第一的新版实验模型Gemini-exp-1206。

Gemini 2.0

“our new AI model for the agentic era”，这是谷歌给Gemini 2.0系列模型的slogan，也是谷歌发布说明的标题。

Gemini 2.0被定位为目前最强大的模型（此处应该加上个之一），旨在引领AI进入“Agentic 时代”，即AI不仅能理解信息，更能主动行动，像助手一样帮助人类完成任务。

Gemini 2.0系列的首发模型为Gemini 2.0 Flash，和上一代一样，Flash版本都是强调低延迟和高性能，追求的是速度和性能的平衡。而最新的Gemini 2.0 Flash不仅保持了1.5 Flash的快速响应能力，同时性能进一步提升，甚至在一些基准测试上超越了1.5 Pro。

详细的基准测试对比如下。

多模态输入输出

除了文本，Gemini 2.0 Flash现在支持图像、视频和音频作为输入，并能生成包含文本的图像和多语言文本转语音（TTS）音频作为输出。别的不说，单支持视频输入这一项，在AI模型领域可谓是独一份了吧。

原生工具调用

Gemini 2.0 Flash可直接调用Google搜索、代码执行以及第三方用户定义的函数，实用性大大增强。

可用性

Gemini 2.0 Flash已在谷歌Gemini应用中可用。

同时，和其他实验版本的模型一样，Gemini 2.0 Flash也已向开发者开放，通过谷歌AI Studio和Vertex AI的Gemini API提供。多模态输入和文本输出对所有开发者开放，而图像生成和TTS则面向早期合作伙伴。计划于明年1月全面开放，并推出更多模型尺寸。

值得一提的是，谷歌AI Studio今天也迎来了大更新，从UI到模型再到功能，并且全部都是免费可用，这里不得不夸一句谷歌“大善人”啊。详细使用方法传送门：手把手教你免费使用排名第一的谷歌Gemini模型！

Agentic时代：AI的主动性和行动力

何为Agentic模型？

Agentic模型是指能够更好地理解周围世界，进行多步推理，并在用户监督下代表用户采取行动的AI模型。简单来说，就是AI不再是被动的工具，而是能够理解我们周围的环境，像一个真正的助手那样，进行多步推理，甚至在你的监督下，主动帮你去搞定一些事情。

如果说之前的AI模型还停留在“你问我答”的阶段，那么以Gemini 2.0为代表的新一代模型，则体现了谷歌对于AI Agent领域的野心：原生的用户界面操作能力（像人一样去操作你的电脑界面）、多模态推理（文字、图片、视频、声音）、长上下文理解、复杂指令遵循和规划、组合函数调用、原生工具使用（直接调用Google搜索、代码执行等工具）以及更低的延迟。

谷歌AI Agent研究原型总结

项目名称	愿景	主要能力	性能/测试阶段	备注
🚀 Project Astra	通用 AI 助手，实时理解和响应周围环境	• 增强的多语言对话能力 • 工具使用 (Google 搜索、Lens、地图) • 增强的记忆力 (长达 10 分钟会话记忆) • 接近人类对话的低延迟	📱 Android 设备测试中原型眼镜测试阶段
🌊 Project Mariner	在浏览器中充当用户代理，自动化执行复杂任务	• 理解网页内容 (像素和 Web 元素) • 通过实验性 Chrome 扩展程序执行操作 • 自动化操作执行与安全保障	WebVoyager 测试：83.5% 敏感操作需用户确认
💻 Jules	面向开发者的 AI 代码代理，协助代码开发	• GitHub 工作流程集成 • 理解问题、制定计划 • 自动代码执行与优化		构建通用 AI 代理的重要组成部分
🎮 游戏中的代理	基于 Gemini 2.0，提供游戏辅助	• 理解游戏规则和机制 • 提供实时策略建议 • 连接网络游戏知识库	正在与 Supercell 等开发商合作测试
🤖 机器人领域探索	将 Gemini 2.0 的空间推理能力应用于机器人技术	• 空间感知与推理能力 • 物理环境交互能力	早期研究阶段

（文：AI信息Gap）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Gemini 2.0

多模态输入输出

原生工具调用

可用性

Agentic时代：AI的主动性和行动力

谷歌AI Agent研究原型总结

发表评论 取消回复

发表评论取消回复