谷歌放大招推出Gemini 2.0,AI模型进入Agentic时代!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

和OpenAI今天不痛不痒的更新相比,谷歌这次明显来的更猛烈一些。

北美时间12月11日,谷歌不那么高调地(和OpenAI相比)接连发布多项更新,其中包括推出新一代系列模型Gemini 2.0,其中Gemini 2.0 Flash作为该系列的首发模型,主打一个“又快又强”,在保持1.5 Flash快速响应的同时,性能进一步提升,甚至在部分基准测试中超越了1.5 Pro

同时,谷歌今天官宣了三个AI Agent助手的研究原型:通用助手Project Astra浏览器助手Project Mariner,以及代码助手Jules,旨在引领AI模型进入“Agentic 时代”。

要知道,就在几天前谷歌DeepMind团队才刚刚发布了目前在LMSYS聊天机器人排行榜(Chatbot Arena Leaderboard)排名第一的新版实验模型Gemini-exp-1206

Gemini 2.0

“our new AI model for the agentic era”,这是谷歌给Gemini 2.0系列模型的slogan,也是谷歌发布说明的标题。

Gemini 2.0被定位为目前最强大的模型(此处应该加上个之一),旨在引领AI进入“Agentic 时代”,即AI不仅能理解信息,更能主动行动,像助手一样帮助人类完成任务。

Gemini 2.0系列的首发模型为Gemini 2.0 Flash,和上一代一样,Flash版本都是强调低延迟高性能,追求的是速度和性能的平衡。而最新的Gemini 2.0 Flash不仅保持了1.5 Flash的快速响应能力,同时性能进一步提升,甚至在一些基准测试上超越了1.5 Pro

详细的基准测试对比如下。

多模态输入输出

除了文本,Gemini 2.0 Flash现在支持图像、视频和音频作为输入,并能生成包含文本的图像和多语言文本转语音(TTS)音频作为输出。别的不说,单支持视频输入这一项,在AI模型领域可谓是独一份了吧。

原生工具调用

Gemini 2.0 Flash可直接调用Google搜索、代码执行以及第三方用户定义的函数,实用性大大增强。

可用性

Gemini 2.0 Flash已在谷歌Gemini应用中可用。

同时,和其他实验版本的模型一样,Gemini 2.0 Flash也已向开发者开放,通过谷歌AI Studio和Vertex AI的Gemini API提供。多模态输入和文本输出对所有开发者开放,而图像生成和TTS则面向早期合作伙伴。计划于明年1月全面开放,并推出更多模型尺寸。

值得一提的是,谷歌AI Studio今天也迎来了大更新,从UI到模型再到功能,并且全部都是免费可用,这里不得不夸一句谷歌“大善人”啊。详细使用方法传送门:手把手教你免费使用排名第一的谷歌Gemini模型!

Agentic时代:AI的主动性和行动力

何为Agentic模型?

Agentic模型是指能够更好地理解周围世界,进行多步推理,并在用户监督下代表用户采取行动的AI模型。简单来说,就是AI不再是被动的工具,而是能够理解我们周围的环境,像一个真正的助手那样,进行多步推理,甚至在你的监督下,主动帮你去搞定一些事情。

如果说之前的AI模型还停留在“你问我答”的阶段,那么以Gemini 2.0为代表的新一代模型,则体现了谷歌对于AI Agent领域的野心:原生的用户界面操作能力(像人一样去操作你的电脑界面)、多模态推理(文字、图片、视频、声音)、长上下文理解复杂指令遵循和规划组合函数调用原生工具使用(直接调用Google搜索、代码执行等工具)以及更低的延迟

谷歌AI Agent研究原型总结

项目名称 愿景 主要能力 性能/测试阶段 备注
🚀 Project Astra 通用 AI 助手,实时理解和响应周围环境 • 增强的多语言对话能力
• 工具使用 (Google 搜索、Lens、地图)
• 增强的记忆力 (长达 10 分钟会话记忆)
• 接近人类对话的低延迟
📱 Android 设备测试中
原型眼镜测试阶段
🌊 Project Mariner 在浏览器中充当用户代理,自动化执行复杂任务 • 理解网页内容 (像素和 Web 元素)
• 通过实验性 Chrome 扩展程序执行操作
• 自动化操作执行与安全保障
WebVoyager 测试:83.5%
敏感操作需用户确认
💻 Jules 面向开发者的 AI 代码代理,协助代码开发 • GitHub 工作流程集成
• 理解问题、制定计划
• 自动代码执行与优化
构建通用 AI 代理的重要组成部分
🎮 游戏中的代理 基于 Gemini 2.0,提供游戏辅助 • 理解游戏规则和机制
• 提供实时策略建议
• 连接网络游戏知识库
正在与 Supercell 等开发商合作测试
🤖 机器人领域探索 将 Gemini 2.0 的空间推理能力应用于机器人技术 • 空间感知与推理能力
• 物理环境交互能力
早期研究阶段



(文:AI信息Gap)

欢迎分享

发表评论