谷歌放大招!新版 Gemini 2.5 Pro 碾压 Claude、GPT,地表最强 AI 来了?

我是一个“谷吹” —— Gemini 2.5 Pro Preview,你竟然恐怖如斯。

昨晚 10 点,谷歌在 I/O 开发者大会正式开场前,悄悄丢了一颗大雷。

新版 Gemini 2.5 Pro Preview(I/O 版本)上线,并且是直接开放体验。

没错,不是提前预热,不是早鸟测试,而是全量用户直接上 —— 网页版、App 端、开发者平台全打通,每人每天 25 次免费使用额度,属实有点狠。

但这还不是重点。

重点是:它,很可能已经是目前地表最强、还免费的多模态模型。



01|Claude 下岗,GPT 慌了

Gemini 2.5 Pro I/O 版这次的主打方向其实很明确 —— 编程、编程、还是编程。

在最硬核的代码能力基准测试上,它一口气干翻 Claude 3.7Claude 3.5GPT-4.1 和 DeepSeek-V3 / R1

  • WebDev Arena 排行榜上,领先 Claude 3.7 Sonnet 约 63 分,登顶榜首;

  • 比前一代 Gemini 2.5 Pro Exp 分数上涨近 150 分。

简单讲,你用它写网页,写原型 / UI,写前端交互,写小游戏,那是真的爽。

谷歌自己的例子都放飞到什么程度了?

直接根据一张图写出对应的代码。

此外,在 LMArena(原 LMSYS)大模型综合排行榜,新版 Gemini 2.5 Pro 也一举超越 OpenAI 三周前发布的 o3,夺得冠军。

让我们恭喜大善人谷歌。



02|多模态 + 超长上下文 = 编程智能体的新基座?

除了代码本身,还有两个能力点值得单独拎出来说:

  • 多模态能力
  • 上下文窗口

这两点是谷歌 Gemini 系列模型的传统“艺能”了。

多模态没什么好说的,文本、图像、视频、音频全支持,连复杂视频内容也能分析(VideoMME 得分高达 84.8%)。

后者则非常关键:

Gemini 2.5 Pro 当前支持 100 万 tokens 上下文,未来计划扩展到 200 万。

对,就是 1M -> 2M,那种。

这意味着什么?意味着可以完整塞进去几十本书、一整个大型项目代码、成百上千段聊天记录,它都能“思考”着回答。

另外,Gemini 2.5 Pro 是一个推理模型,自然是支持“内置思维链”(Internal Chain of Thought),会先思考后作答,擅长难题。



03|免费、开放、便宜

新版 Gemini 2.5 Pro 已在 Gemini 应用(Web 端和 App 端)、AI Studio 以及 Vertex AI 全面上线。

照例,Gemini 应用和 AI Studio 里,所有用户均可免费使用这个新模型,但有一定的次数限制。

Vertex AI 可以开通付费,享受更高的 API 速率。

新版 Gemini 2.5 Pro API 价格则和之前的老版本一致:

  • 输入:2.50(>20 万)
  • 输出:15(>20 万)



04|实战效果

还是以经典的天气卡片为例测试一波新版 Gemini 2.5 Pro 模型的实战能力。

测试环境是谷歌 AI Studio(主要因为 AI Studio 里的模型均为满血版)。

为了测试出它的真正能力,提示词这次我选择用英文提示。

You are a top front-end engineer working at Apple. Please create a single HTML file that includes CSS and JavaScript to generate animated weather cards. The cards should visually demonstrate the following weather conditions with distinct animation effects:

* **Windy** (e.g., drifting clouds, swaying trees, or animated wind lines)
* **Rainy** (e.g., falling raindrops, forming puddles)
* **Sunny** (e.g., shining rays, bright background)
* **Snowy** (e.g., falling snowflakes, snow accumulation effects)

All weather cards should be displayed side-by-side with a dark-themed background. The entire HTML, CSS, and JavaScript code should be contained within this single file.

The JavaScript section should include a function or button group to switch between different weather states and demonstrate each animation.

Optimize the front-end visuals to be smooth, refined, and polished — aiming for the quality of a premium weather app that could charge 20 USD/month.

这是 Gemini 2.5 Pro 第一次的输出结果。

整体来说不错,功能上没问题,前端 UI 的美观性上我个人感觉和 Claude 3.7 可能还有差距,但差距已经不大了。

小细节很到位,比如动效:太阳转动、雨水洒落、风吹云动、积雪成堆。

但我有点不死心,于是让它继续优化。

这一版比起之前的有所提高,前端 UI 审美方面,4 张天气卡片的细节处理的更好,比如光线、雨滴、雪花的效果。

此外,还优化了 4 个按钮控件,设计成了 iOS 中常见的“分段控件”样式,外部容器包裹,内部按钮圆角。



结语

谷歌,Gemini,你是真的要站起来了!




我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。

相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”,用AI为你的未来加速。



(文:AI信息Gap)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往