谷歌AI全家桶炸翻全场!Gemini 2.5 Pro上线增强推理,20多个AI产品和功能打包上新

文丨谭梓馨

从开创大型语言模型的Transformer架构,到推出AlphaGo、AlphaZero等轰动世界的学习和规划代理系统,谷歌在AI技术方面的领跑优势,在今年的谷歌I/O大会上展现得淋漓尽致。

美国当地时间5月20日,2025 I/O大会如期开幕,谷歌CEO Sundar Pichai率队登台,介绍了谷歌在过去几个月进行的快马加鞭式的推陈出新,以及对前沿AI技术投入带来的最新成果。

现场推出了10多个模型和相关研究突破,发布了20多个最新AI产品和功能,说是全家桶毫不为过:

有趣的是,谷歌还在会场设置了一个计数器,显示其高管和产品负责人在演讲中提到关键词的次数,不到一个半小时的演讲中“AI”一词被提及92次,较I/O 2024的120多次略有下降,不过“Gemini”一词被提及了94次,两者加起来186次,AI含量依旧很高。

Gemini无处不在
Sundar Pichai展示了过去一年的谷歌式研发速度,仅在过去五个月时间内,推出的新模型就多达17个,堪称业界之最,Pichai表示:“我们的‘发货’速度比以往任何时候都快。”

如今的谷歌顶尖模型Gemini 2.5 Pro性能几乎横扫了LMArena所有类别的排行榜。

在自研TPU的加持下,Gemini模型价格大幅下降且运行速度显著提升,性价比拉满。第七代TPU Ironwood专为大规模AI思考和推理工作负载而设计,性能是上一代的10倍,每个Pod的计算能力高达42.5 exaflops,这让谷歌模型不仅引领着帕累托效率前沿,更从根本上改变了前沿本身。
据透露,Gemini目前月活跃用户超过4亿,超过700万开发人员使用Gemini进行开发,现在每月处理的Token数量超过480万亿,是去年同期的50倍
大会上,谷歌介绍了2.5 Pro和2.5 Flash模型的新功能:原生音频输入/出,用户可以直接构建对话体验,使用更自然、更具表现力的Gemini。
值得关注的是,2.5 Pro还增添了一个Deep Think版本,这是一种针对高度复杂数学和编码的实验性增强推理模式,实现了比pro版更强的性能,测试多模态推理的MMMU上获得了84.0%的高分,谷歌方面表示,正在用2.5 Pro DeepThink定义前沿技术。
围绕Gemini背后的先进模型技术,谷歌推出了更多周边模型和新功能。
Gemini Live具有摄像头和屏幕共享功能,在Android和iOS上免费使用,用户可以将手机对准任何物体并通过语音进行交谈。
Imagen 4是内置的新图像生成模型,在精细细节、照片级写实和抽象风格方面均表现出色生成的图像分辨率高达2kVeo 3则是目前业界最先进的视频生成模型,也是世界上第一个原生支持音效、背景噪音和人物对话的模型。
在此基础上,谷歌开发了一款AI电影制作工具Flow它整合了Veo、Imagen和Gemini的不同优势,让用户可以无缝创作电影级的片段、场景和故事。
Veo模型现在支持更复杂的摄像机控制,可帮助用户定义精确的镜头运动,包括旋转、移动和缩放等,也可以在视频中添加或删除指定对象。

Gemini无处不在,也即将登陆Chrome浏览器,用户可以在浏览网页时向AI提出问题。

还有两项实用的功能是Deep Research和Canvas,谷歌正在进行迄今为止最大的更新,开启分析信息、创建播客、开发氛围代码网站和应用程序的新方法。
Deep Research可以帮助用户获得完整的定制深度研究报告,该报告能将公共数据与用户提供的私人PDF、文档和图像数据等相结合;Canvas则可以创建交互式信息图表、测验,支持45种语言的播客式音频概览,还可以帮助用户快速地从简单的描述中创造完整的应用程序。
谷歌的最终愿景是将Gemini应用程序转变为通用AI助手,让Gemini大模型成为一个“世界模型”,它可以通过理解和模拟世界的各个方面来制定计划并想象新的体验,就像人类大脑一样。
打造AI编码和代理全套工具
对于当下最火的AI编码和代理赛道,谷歌上线了Gemini Code Assist个人版和Gemini Code Assist for GitHub版。

在一项实验中,使用Gemini Code Assist的开发者与未使用任何编程辅助工具的开发者进行了对比,发现Gemini Code Assist显著提高了开发者完成常见开发任务的成功率提升了2.5倍。

此外,谷歌开发的异步编码代理Jules现已进入公开测试阶段,Jules使用Gemini 2.5 Pro模型,使其能够使用最先进的编码推理技术,同时可以直接与GitHub协作,结合其云虚拟机系统,可以快速、精确地处理复杂的多文件更改和并发任务,解决开发者积压的bug等。

还有一整套AI代理开发套件(ADK),包括Python代理开发工具包v1.0.0稳定版和Java ADK v0.1.0初始版本。Vertex AI代理引擎帮助开发者在生产环境中部署、管理和扩展代理,现在提供代理引擎UI,方便开发者以更直接、更集中的方式简化代理开发周期。

此外,谷歌还加速与合作伙伴持续改进其开放标准Agent2Agent(A2A)协议,促进代理之间更精细、更可靠的互动。

为了让开发者更轻松地利用A2A协议,谷歌发布了A2A官方Python SDK,这款专用开发工具包提供了与A2A交互和使用A2A进行构建所需的所有工具,和MCP协议形成互补,Gemini API和SDK现已与MCP工具完全兼容。

重新定义AI搜索边界

Google实验室正在搜索功能中测试AI模式,AI搜索功能让用户更轻松地向Google提出任何问题,并获得有用的回复。

谷歌表示,AI模式是目前最强大的AI搜索功能,拥有更先进的推理能力和多模态分析能力,能够通过后续问题和实用的网络链接进行更深入的分析,未来几周,用户将在Google搜索栏中看到新的AI模式标签页。


AI模式下的深度搜索功能,可以帮用户发起数百次搜索,对不同的信息进行推理分类,并在几分钟内创建专家级的完整引用报告,从而节省数小时的搜索研究时间。

通过引入Project Astra的实时功能,Google搜索现在支持多模态搜索,用户可以使用摄像头实时拍摄并与Google搜索互动,讨论所看到的内容。

该AI模式还引入了Project Mariner的代理功能,这项服务将首先涵盖活动门票、餐厅预订和本地预约,打造无缝衔接、便捷高效的线下服务体验。

AI模式下还增添了购物体验,将Gemini模型功能与购物、支付技术相结合,帮助用户浏览商品、对比评估并缩小产品范围。比如想看看某件衣服穿在身上的效果,只需上传一张自己的照片,即可虚拟试穿,选定心仪的商品后,可以要求AI代理结账功能,在价格合适的情况下,使用Google Pay就能下单购买。

当用户需要额外的数据处理或可视化帮助时,AI模式还可以帮助分析复杂的数据集并创建生动的图表,所有图表均根据用户的查询量身定制。

One more thing

人工智能时代,谷歌重拾对智能硬件的热情,升级推出Android XR平台,这是结合Gemini智能性打造的首个Android平台,旨在为智能耳机、眼镜以及所有相关设备提供支持。

今天在Google I/O舞台上,谷歌对搭载Android XR的眼镜进行了深入讲解,十多年来,谷歌一直在探索智能眼镜的研发。

这款眼镜配备摄像头、麦克风和扬声器,可与手机协同工作,用户无需掏手机即可访问应用程序,此外,可选配的内置显示屏可在用户需要时提供私密的实用信息,与支持多模态的Gemini配对后,眼镜能够看到和听到用户的一举一动,从而了解用户的处境,提供实时的帮助。

谷歌宣布与创新眼镜品牌合作率先推出Gentle Monster和Warby Parker两款产品,下一步还计划将Android XR扩展到其他头戴设备。

主流模型产品和功能之外,谷歌还推出了3D视频通信平台Google Beam,研究和学习工具NotebookLM,专为学习而精心调校的LearnLM以及基于共享架构构建的首个开放模型Gemma 3n等等。

在演讲的最后,Sundar Pichai将这届I/O大会提炼成一句话:“从研究到现实”,他表示,科技拥有着不可思议的力量,它能激励我们、让我们敬畏,并推动我们不断前进。

-END-

(文:头部科技)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往