新版Gemini 暴雷了!

Gemini 1206版表现抢眼,但实测结果竟……

Google最新发布的Gemini 1206版让整个AI界沸腾了!

基准测试数据显示,这个版本在多个关键指标上实现了显著飞跃

但事情真的有那么美好吗?

让我们先来看看这份让人兴奋的成绩单:

在最新的基准测试中,Gemini 1206版的表现亮眼夺目

  • 数学平均分高达70.02分,远超OpenAI的o1(62.92分)

  • 编码能力达到63.41分,仅次于Claude 3.5的67.13分

  • 全球平均分63.63分,紧随o1(64.74分)之后

看起来是不是很厉害?

但是!

真实使用场景却给了我们一记响亮的耳光!

开发者@slow_developer分享了他的亲身体验:

「经过一个小时的代码测试,1121版本的表现反而更好」。

这不禁让人思考:基准测试真的能反映AI的实际能力吗?

从数据上看,Gemini 1206相比1121版本确实有了大幅提升:

  • 全球平均分提升了近7个百分点(从56.68分到63.63分)

  • 推理能力跃升了近8个百分点(从49.83分到57.00分)

  • 编码能力更是暴涨13个百分点(从50.36分到63.41分)

但实际使用时,为什么会出现「倒退」的现象呢?

在评估AI模型时,不能只看表面的数据,还要注重实际应用场景

就像一个运动员,不能只看体检报告,更要看比赛表现。

这「数据与现实的冲突」:基准测试不是终点,用户体验才是王道

我在用Claude 时也发现,最近的claude-3-5-sonnet-20241022 怎么变傻了?

然后发现切回老版本的claude-3-5-sonnet-20240620后,咦,熟悉的大聪明回来了!

模型工程师们恐怕要开始抉择了:究竟是继续优化基准测试成绩,还是专注改善实际使用体验?

你更相信基准测试,还是实际体验呢?

(文:AGI Hunt)

欢迎分享

发表评论