编码新王者？谷歌未发布模型 “夜语者” 现身竞技场，初测：比Gemini 2.5 Pro更强，或成下一个SOTA！

🍹 Insight Daily 🪺

Aitrainee | 公众号：AI进修生

Hi，这里是Aitrainee，欢迎阅读本期新文章。

Google 继续扩大领先优势，它很可能很快就会发布自己的编码模型。

今天早上，关于谷歌尚未发布的“Nightwhisper”编码模型，流传着许多传言：

“迄今为止最好的”
优于 Gemini 2.5 Pro潜在的“
下一个 SOTA”

这个模型在 Imarena 中可见，Imarena 是一个模型竞技场：当Claude3.5 遇上 Gemini 2，这个免费的AI编程竞技场炸了。

地址：https://web.lmarena.ai/

有测试者表示，经初步测试，这可能是迄今为止最好的编码模型——比Gemini 2.5 Pro更强的Coding 模型：

▼ Nightwhisper（左）、Gemini 2.5 Pro（右）

如果这些早期报告属实，那么谷歌的目标可能是成为编码界的王者。

此外，LM Arena（lmsys）上其实出现了两种型号，可能是 Gemini 2.5 Pro 和 Gemini 2.5 Flash 更新，“ nightwhisper ” 可能是 Gemini 2.5 Pro 更新，*非常*擅长编码！“stargazer” 可能是 Gemini 2.5 Flash。

网友测试：构建 X 平台的原型

还有网站登陆页：

Nightwhisper 还未到来，但已有的Gemini 2.5 Pro最近可谓风头正盛。

以下是一些编码案例和测试基准：

在 Three.js 中使用 Gemini 2.5 Pro 进行物理模拟：

Gemini 2.5 编码了一只骑自行车的鹈鹕。

Gemini 2.5 编码了飞机游戏。

一个汇聚了人、会议、一些乒乓球的模拟游戏：

开发者表示Gemini 2.5 Pro第1个做到这一点的模型。

而在基准测试方面，Gemini 2.5 Pro 现已成为 Arena 排行榜上的第 1 名 – 有史以来最大的分数跃升（比 Grok-3/GPT-4.5 高出 40 分）！

在代号为“nebula”的测试中，Gemini 2.5 Pro 在所有类别中均排名第一，并且在数学、创意写作、指令遵循、较长查询和多回合中独占鳌头。

不仅仅是代码，它还推理MAX：

Gemini-2.5-pro 在 MathArena – 美国奥数竞赛测试中获得 24.4% 的压倒性总分（而其他分数不到 5%）。

而在 GPQA Diamond 中获得了最高分（84%），

这是一组非常困难的关于生物、化学和物理的多项选择题；人类专家的得分仅为 70% 左右。

此外，Gemini-2.5-pro 在 Mensa Norway测试中智商达到130 。

此外，Qwen 3 或将于 4 月第二周发布，能否比Gemini-2.5-pro显更亮眼呢？

以上。

🌟 知音难求，自我修炼亦艰，抓住前沿技术的机遇，与我们一起成为创新的超级个体（把握AIGC时代的个人力量）。

参考链接：
[1] https://web.lmarena.ai/leaderboard

点这里👇关注我，记得标星哦～

（文：AI进修生）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Aitrainee | 公众号：AI进修生

发表评论 取消回复

发表评论取消回复