谷歌AI全家桶炸翻全场！Gemini 2.5 Pro上线增强推理，20多个AI产品和功能打包上新

文丨谭梓馨

从开创大型语言模型的Transformer架构，到推出AlphaGo、AlphaZero等轰动世界的学习和规划代理系统，谷歌在AI技术方面的领跑优势，在今年的谷歌I/O大会上展现得淋漓尽致。

美国当地时间5月20日，2025 I/O大会如期开幕，谷歌CEO Sundar Pichai率队登台，介绍了谷歌在过去几个月进行的快马加鞭式的推陈出新，以及对前沿AI技术投入带来的最新成果。

现场推出了10多个模型和相关研究突破，发布了20多个最新AI产品和功能，说是全家桶毫不为过：

有趣的是，谷歌还在会场设置了一个计数器，显示其高管和产品负责人在演讲中提到关键词的次数，不到一个半小时的演讲中“AI”一词被提及92次，较I/O 2024的120多次略有下降，不过“Gemini”一词被提及了94次，两者加起来186次，AI含量依旧很高。

Gemini无处不在

Sundar Pichai展示了过去一年的谷歌式研发速度，仅在过去五个月时间内，推出的新模型就多达17个，堪称业界之最，Pichai表示：“我们的‘发货’速度比以往任何时候都快。”

如今的谷歌顶尖模型Gemini 2.5 Pro性能几乎横扫了LMArena所有类别的排行榜。

在自研TPU的加持下，Gemini模型价格大幅下降且运行速度显著提升，性价比拉满。第七代TPU Ironwood专为大规模AI思考和推理工作负载而设计，性能是上一代的10倍，每个Pod的计算能力高达42.5 exaflops，这让谷歌模型不仅引领着帕累托效率前沿，更从根本上改变了前沿本身。

据透露，Gemini目前月活跃用户超过4亿，超过700万开发人员使用Gemini进行开发，现在每月处理的Token数量超过480万亿，是去年同期的50倍。

大会上，谷歌介绍了2.5 Pro和2.5 Flash模型的新功能：原生音频输入/输出，用户可以直接构建对话体验，使用更自然、更具表现力的Gemini。

值得关注的是，2.5 Pro还增添了一个Deep Think版本，这是一种针对高度复杂数学和编码的实验性增强推理模式，实现了比pro版更强的性能，在测试多模态推理的MMMU上获得了84.0%的高分，谷歌方面表示，正在用2.5 Pro DeepThink定义前沿技术。

围绕Gemini背后的先进模型技术，谷歌推出了更多周边模型和新功能。

Gemini Live具有摄像头和屏幕共享功能，在Android和iOS上免费使用，用户可以将手机对准任何物体并通过语音进行交谈。

Imagen 4是内置的新图像生成模型，在精细细节、照片级写实和抽象风格方面均表现出色，生成的图像分辨率高达2k；Veo 3则是目前业界最先进的视频生成模型，也是世界上第一个原生支持音效、背景噪音和人物对话的模型。

在此基础上，谷歌开发了一款AI电影制作工具Flow，它整合了Veo、Imagen和Gemini的不同优势，让用户可以无缝创作电影级的片段、场景和故事。

Veo模型现在支持更复杂的摄像机控制，可帮助用户定义精确的镜头运动，包括旋转、移动和缩放等，也可以在视频中添加或删除指定对象。

Gemini无处不在，也即将登陆Chrome浏览器，用户可以在浏览网页时向AI提出问题。

还有两项实用的功能是Deep Research和Canvas，谷歌正在进行迄今为止最大的更新，开启分析信息、创建播客、开发氛围代码网站和应用程序的新方法。

Deep Research可以帮助用户获得完整的定制深度研究报告，该报告能将公共数据与用户提供的私人PDF、文档和图像数据等相结合；Canvas则可以创建交互式信息图表、测验，支持45种语言的播客式音频概览，还可以帮助用户快速地从简单的描述中创造完整的应用程序。

谷歌的最终愿景是将Gemini应用程序转变为通用AI助手，让Gemini大模型成为一个“世界模型”，它可以通过理解和模拟世界的各个方面来制定计划并想象新的体验，就像人类大脑一样。

打造AI编码和代理全套工具

对于当下最火的AI编码和代理赛道，谷歌上线了Gemini Code Assist个人版和Gemini Code Assist for GitHub版。

在一项实验中，使用Gemini Code Assist的开发者与未使用任何编程辅助工具的开发者进行了对比，发现Gemini Code Assist显著提高了开发者完成常见开发任务的成功率提升了2.5倍。

此外，谷歌开发的异步编码代理Jules现已进入公开测试阶段，Jules使用Gemini 2.5 Pro模型，使其能够使用最先进的编码推理技术，同时可以直接与GitHub协作，结合其云虚拟机系统，可以快速、精确地处理复杂的多文件更改和并发任务，解决开发者积压的bug等。

还有一整套AI代理开发套件（ADK），包括Python代理开发工具包v1.0.0稳定版和Java ADK v0.1.0初始版本。Vertex AI代理引擎可帮助开发者在生产环境中部署、管理和扩展代理，现在提供代理引擎UI，方便开发者以更直接、更集中的方式简化代理开发周期。

此外，谷歌还加速与合作伙伴持续改进其开放标准Agent2Agent（A2A）协议，促进代理之间更精细、更可靠的互动。

为了让开发者更轻松地利用A2A协议，谷歌发布了A2A官方Python SDK，这款专用开发工具包提供了与A2A交互和使用A2A进行构建所需的所有工具，和MCP协议形成互补，Gemini API和SDK现已与MCP工具完全兼容。

重新定义AI搜索边界

Google实验室正在搜索功能中测试AI模式，AI搜索功能让用户更轻松地向Google提出任何问题，并获得有用的回复。

谷歌表示，AI模式是目前最强大的AI搜索功能，拥有更先进的推理能力和多模态分析能力，能够通过后续问题和实用的网络链接进行更深入的分析，未来几周，用户将在Google搜索栏中看到新的AI模式标签页。

AI模式下的深度搜索功能，可以帮用户发起数百次搜索，对不同的信息进行推理分类，并在几分钟内创建专家级的完整引用报告，从而节省数小时的搜索研究时间。

通过引入Project Astra的实时功能，Google搜索现在支持多模态搜索，用户可以使用摄像头实时拍摄并与Google搜索互动，讨论所看到的内容。

该AI模式还引入了Project Mariner的代理功能，这项服务将首先涵盖活动门票、餐厅预订和本地预约，打造无缝衔接、便捷高效的线下服务体验。

AI模式下还增添了购物体验，将Gemini模型功能与购物、支付技术相结合，帮助用户浏览商品、对比评估并缩小产品范围。比如想看看某件衣服穿在身上的效果，只需上传一张自己的照片，即可虚拟试穿，选定心仪的商品后，可以要求AI代理结账功能，在价格合适的情况下，使用Google Pay就能下单购买。

当用户需要额外的数据处理或可视化帮助时，AI模式还可以帮助分析复杂的数据集并创建生动的图表，所有图表均根据用户的查询量身定制。

One more thing

人工智能时代，谷歌重拾对智能硬件的热情，升级推出Android XR平台，这是结合Gemini智能性打造的首个Android平台，旨在为智能耳机、眼镜以及所有相关设备提供支持。

今天在Google I/O舞台上，谷歌对搭载Android XR的眼镜进行了深入讲解，十多年来，谷歌一直在探索智能眼镜的研发。

这款眼镜配备摄像头、麦克风和扬声器，可与手机协同工作，用户无需掏手机即可访问应用程序，此外，可选配的内置显示屏可在用户需要时提供私密的实用信息，与支持多模态的Gemini配对后，眼镜能够看到和听到用户的一举一动，从而了解用户的处境，提供实时的帮助。

谷歌宣布与创新眼镜品牌合作率先推出Gentle Monster和Warby Parker两款产品，下一步还计划将Android XR扩展到其他头戴设备。

主流模型产品和功能之外，谷歌还推出了3D视频通信平台Google Beam，研究和学习工具NotebookLM，专为学习而精心调校的LearnLM以及基于共享架构构建的首个开放模型Gemma 3n等等。

在演讲的最后，Sundar Pichai将这届I/O大会提炼成一句话：“从研究到现实”，他表示，科技拥有着不可思议的力量，它能激励我们、让我们敬畏，并推动我们不断前进。

-END-

（文：头部科技）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复