Gemini 1206版表现抢眼,但实测结果竟……
Google最新发布的Gemini 1206版让整个AI界沸腾了!
基准测试数据显示,这个版本在多个关键指标上实现了显著飞跃。
但事情真的有那么美好吗?
让我们先来看看这份让人兴奋的成绩单:
在最新的基准测试中,Gemini 1206版的表现亮眼夺目:
-
数学平均分高达70.02分,远超OpenAI的o1(62.92分)
-
编码能力达到63.41分,仅次于Claude 3.5的67.13分
-
全球平均分63.63分,紧随o1(64.74分)之后
看起来是不是很厉害?
但是!
真实使用场景却给了我们一记响亮的耳光!
开发者@slow_developer分享了他的亲身体验:
「经过一个小时的代码测试,1121版本的表现反而更好」。
这不禁让人思考:基准测试真的能反映AI的实际能力吗?
从数据上看,Gemini 1206相比1121版本确实有了大幅提升:
-
全球平均分提升了近7个百分点(从56.68分到63.63分)
-
推理能力跃升了近8个百分点(从49.83分到57.00分)
-
编码能力更是暴涨13个百分点(从50.36分到63.41分)
但实际使用时,为什么会出现「倒退」的现象呢?
在评估AI模型时,不能只看表面的数据,还要注重实际应用场景。
就像一个运动员,不能只看体检报告,更要看比赛表现。
这「数据与现实的冲突」:基准测试不是终点,用户体验才是王道。
我在用Claude 时也发现,最近的claude-3-5-sonnet-20241022 怎么变傻了?
然后发现切回老版本的claude-3-5-sonnet-20240620后,咦,熟悉的大聪明回来了!
模型工程师们恐怕要开始抉择了:究竟是继续优化基准测试成绩,还是专注改善实际使用体验?
你更相信基准测试,还是实际体验呢?
(文:AGI Hunt)