🍹 Insight Daily 🪺
Aitrainee | 公众号:AI进修生
Hi,这里是Aitrainee,欢迎阅读本期新文章。

Google 继续扩大领先优势,它很可能很快就会发布自己的编码模型。
今天早上,关于谷歌尚未发布的“Nightwhisper”编码模型,流传着许多传言:
-
“迄今为止最好的”
-
优于 Gemini 2.5 Pro潜在的“
-
下一个 SOTA”
这个模型在 Imarena 中可见,Imarena 是一个模型竞技场:当Claude3.5 遇上 Gemini 2,这个免费的AI编程竞技场炸了。
地址:https://web.lmarena.ai/
有测试者表示,经初步测试,这可能是迄今为止最好的编码模型——比Gemini 2.5 Pro更强的Coding 模型:

▼ Nightwhisper(左)、Gemini 2.5 Pro(右)
如果这些早期报告属实,那么谷歌的目标可能是成为编码界的王者。

此外,LM Arena(lmsys)上其实出现了两种型号,可能是 Gemini 2.5 Pro 和 Gemini 2.5 Flash 更新,“ nightwhisper ” 可能是 Gemini 2.5 Pro 更新,*非常*擅长编码!“stargazer” 可能是 Gemini 2.5 Flash。

网友测试:构建 X 平台的原型
还有网站登陆页:

Nightwhisper 还未到来,但已有的Gemini 2.5 Pro最近可谓风头正盛。

以下是一些编码案例和测试基准:
在 Three.js 中使用 Gemini 2.5 Pro 进行物理模拟:


Gemini 2.5 编码了一只骑自行车的鹈鹕。

Gemini 2.5 编码了飞机游戏。

一个汇聚了人、会议、一些乒乓球的模拟游戏:
开发者表示Gemini 2.5 Pro第1个做到这一点的模型。

而在基准测试方面,Gemini 2.5 Pro 现已成为 Arena 排行榜上的第 1 名 – 有史以来最大的分数跃升(比 Grok-3/GPT-4.5 高出 40 分)!
在代号为“nebula”的测试中,Gemini 2.5 Pro 在所有类别中均排名第一,并且在数学、创意写作、指令遵循、较长查询和多回合中独占鳌头。
不仅仅是代码,它还推理MAX:
Gemini-2.5-pro 在 MathArena – 美国奥数竞赛测试中获得 24.4% 的压倒性总分(而其他分数不到 5%)。
而在 GPQA Diamond 中获得了最高分(84%),
这是一组非常困难的关于生物、化学和物理的多项选择题;人类专家的得分仅为 70% 左右。

此外,Gemini-2.5-pro 在 Mensa Norway测试中 智商达到130 。


此外,Qwen 3 或将于 4 月第二周发布,能否比Gemini-2.5-pro显更亮眼呢?
以上。

[1] https://web.lmarena.ai/leaderboard
点这里👇关注我,记得标星哦~
(文:AI进修生)