大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普,AI工具测评,AI效率提升,AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。
和OpenAI今天不痛不痒的更新相比,谷歌这次明显来的更猛烈一些。
北美时间12月11日,谷歌不那么高调地(和OpenAI相比)接连发布多项更新,其中包括推出新一代系列模型Gemini 2.0
,其中Gemini 2.0 Flash
作为该系列的首发模型,主打一个“又快又强”,在保持1.5 Flash
快速响应的同时,性能进一步提升,甚至在部分基准测试中超越了1.5 Pro
。
同时,谷歌今天官宣了三个AI Agent助手的研究原型:通用助手Project Astra
,浏览器助手Project Mariner
,以及代码助手Jules
,旨在引领AI模型进入“Agentic 时代”。
要知道,就在几天前谷歌DeepMind团队才刚刚发布了目前在LMSYS聊天机器人排行榜(Chatbot Arena Leaderboard)排名第一的新版实验模型Gemini-exp-1206
。
Gemini 2.0
“our new AI model for the agentic era”,这是谷歌给Gemini 2.0
系列模型的slogan,也是谷歌发布说明的标题。
Gemini 2.0
被定位为目前最强大的模型(此处应该加上个之一),旨在引领AI进入“Agentic 时代”,即AI不仅能理解信息,更能主动行动,像助手一样帮助人类完成任务。
Gemini 2.0
系列的首发模型为Gemini 2.0 Flash
,和上一代一样,Flash版本都是强调低延迟和高性能,追求的是速度和性能的平衡。而最新的Gemini 2.0 Flash
不仅保持了1.5 Flash
的快速响应能力,同时性能进一步提升,甚至在一些基准测试上超越了1.5 Pro
。
详细的基准测试对比如下。
多模态输入输出
除了文本,Gemini 2.0 Flash
现在支持图像、视频和音频作为输入,并能生成包含文本的图像和多语言文本转语音(TTS)音频作为输出。别的不说,单支持视频输入这一项,在AI模型领域可谓是独一份了吧。
原生工具调用
Gemini 2.0 Flash
可直接调用Google搜索、代码执行以及第三方用户定义的函数,实用性大大增强。
可用性
Gemini 2.0 Flash
已在谷歌Gemini应用中可用。
同时,和其他实验版本的模型一样,Gemini 2.0 Flash
也已向开发者开放,通过谷歌AI Studio和Vertex AI的Gemini API提供。多模态输入和文本输出对所有开发者开放,而图像生成和TTS则面向早期合作伙伴。计划于明年1月全面开放,并推出更多模型尺寸。
值得一提的是,谷歌AI Studio今天也迎来了大更新,从UI到模型再到功能,并且全部都是免费可用,这里不得不夸一句谷歌“大善人”啊。详细使用方法传送门:手把手教你免费使用排名第一的谷歌Gemini模型!
Agentic时代:AI的主动性和行动力
何为Agentic模型?
Agentic模型是指能够更好地理解周围世界,进行多步推理,并在用户监督下代表用户采取行动的AI模型。简单来说,就是AI不再是被动的工具,而是能够理解我们周围的环境,像一个真正的助手那样,进行多步推理,甚至在你的监督下,主动帮你去搞定一些事情。
如果说之前的AI模型还停留在“你问我答”的阶段,那么以Gemini 2.0
为代表的新一代模型,则体现了谷歌对于AI Agent领域的野心:原生的用户界面操作能力(像人一样去操作你的电脑界面)、多模态推理(文字、图片、视频、声音)、长上下文理解、复杂指令遵循和规划、组合函数调用、原生工具使用(直接调用Google搜索、代码执行等工具)以及更低的延迟。
谷歌AI Agent研究原型总结
项目名称 | 愿景 | 主要能力 | 性能/测试阶段 | 备注 |
---|---|---|---|---|
🚀 Project Astra | 通用 AI 助手,实时理解和响应周围环境 | • 增强的多语言对话能力 • 工具使用 (Google 搜索、Lens、地图) • 增强的记忆力 (长达 10 分钟会话记忆) • 接近人类对话的低延迟 |
📱 Android 设备测试中 原型眼镜测试阶段 |
|
🌊 Project Mariner | 在浏览器中充当用户代理,自动化执行复杂任务 | • 理解网页内容 (像素和 Web 元素) • 通过实验性 Chrome 扩展程序执行操作 • 自动化操作执行与安全保障 |
WebVoyager 测试:83.5% 敏感操作需用户确认 |
|
💻 Jules | 面向开发者的 AI 代码代理,协助代码开发 | • GitHub 工作流程集成 • 理解问题、制定计划 • 自动代码执行与优化 |
构建通用 AI 代理的重要组成部分 | |
🎮 游戏中的代理 | 基于 Gemini 2.0,提供游戏辅助 | • 理解游戏规则和机制 • 提供实时策略建议 • 连接网络游戏知识库 |
正在与 Supercell 等开发商合作测试 | |
🤖 机器人领域探索 | 将 Gemini 2.0 的空间推理能力应用于机器人技术 | • 空间感知与推理能力 • 物理环境交互能力 |
早期研究阶段 |
(文:AI信息Gap)