新版Gemini 暴雷了！

Gemini 1206版表现抢眼，但实测结果竟……

Google最新发布的Gemini 1206版让整个AI界沸腾了！

基准测试数据显示，这个版本在多个关键指标上实现了显著飞跃。

但事情真的有那么美好吗？

让我们先来看看这份让人兴奋的成绩单：

在最新的基准测试中，Gemini 1206版的表现亮眼夺目：

看起来是不是很厉害？

但是！

真实使用场景却给了我们一记响亮的耳光！

开发者@slow_developer分享了他的亲身体验：

「经过一个小时的代码测试，1121版本的表现反而更好」。

这不禁让人思考：基准测试真的能反映AI的实际能力吗？

从数据上看，Gemini 1206相比1121版本确实有了大幅提升：

但实际使用时，为什么会出现「倒退」的现象呢？

在评估AI模型时，不能只看表面的数据，还要注重实际应用场景。

就像一个运动员，不能只看体检报告，更要看比赛表现。

这「数据与现实的冲突」：基准测试不是终点，用户体验才是王道。

我在用Claude 时也发现，最近的claude-3-5-sonnet-20241022 怎么变傻了？

然后发现切回老版本的claude-3-5-sonnet-20240620后，咦，熟悉的大聪明回来了！

模型工程师们恐怕要开始抉择了：究竟是继续优化基准测试成绩，还是专注改善实际使用体验？

你更相信基准测试，还是实际体验呢？

（文：AGI Hunt）