是o1 不行,还是你不够聪明?

OpenAI的o1刚刚亮相,就被诟病起能力不行!

有人说它「不够好」,有人说是「没用好」,到底谁说得对?

实力到底如何?

数据显示,在竞赛数学、竞赛代码和博士级科学问题上,o1都展现出了惊人的能力。特别是在pro模式下,其表现更是令人瞩目。

@Patrick’s AIBuzzNews直言:

o1的智能水平已经超过99%的人类」。

这个评价虽然风格大胆如Sam Altman,但从测试数据来看,确实令人印象深刻。

@JE_Colors 给出了实测具体数据:

o1在处理相同任务时,速度比之前快了4倍(19秒 vs 76秒)」。

争议从何而来?

但为什么还是有这么多人不满意呢?

原因似乎有很多:

技术认知的偏差

  • 很多人对o1的技术本质存在误解。@Adam Goldstein就纠正了一个重要概念:

o1使用的是测试时计算(Test-Time Compute),而不是测试时训练(Test-Time Training)

  • @arunabh补充说:

这其实是在语言领域的搜索,而不是测试时训练

这些技术细节的误解,往往会导致人们对o1的能力边界产生错误预期。

使用方式的问题

  • @JE_Colors 指出:

很多人还在用对待GPT-4的方式来使用o1

  • @IA Latinoamérica更是直言不讳:

『不够好』其实等于『不知道如何使用这个工具』

期望过高

  • @Jo认为:

这可能是因为OpenAI此前对Q/Strawberry的过度炒作*

  • @gerver Alvarez指出:

当Claude 3.5 Sonnet能达到相似效果时,人们就会质疑o1的优势

专业人士怎么看?

@Sithamet作为一线开发者指出了o1的具体问题:

在处理人类语言和代码混合的场景时,确实比GPT-4更容易混淆

但他也强调:「批评能帮助实验室进步,因为他们无法在实验室环境中测试所有场景」。

@BeijingChef则从使用门槛的角度提出:

目前能真正测试o1能力的,可能只有拥有精英工作经历的博士或顶尖硕士。对普通用户来说,甚至都无法提出足够专业的问题来挑战它

社区反思

@Sola对当前社区的风气提出了尖锐批评:

AI社区已经变成了一个只关注性能指标的有毒粉丝圈,像个黑洞一样只进不出,却很少有人真正专注于用现有工具创造有意义的产品和创新

@Nifty则呼吁:「与其批评它的局限性,不如想办法更有效地利用它」。

未来可期

值得注意的是,@kimmonismus说到,o1还只是第一个版本,而且是在2023年10月才被发现的技术。

未来的o2、o3必然会带来更多惊喜。

@NeuralNet试图指出技术进步的本质:「进步是以迭代来衡量的,而不是期望。每一次循环都在完善系统,未来总会超越现在。这就是无限展开的方式」。

@Pollux更是预测:「明年的AI代理(agents)会让人们真正认识到这些模型有多智能」。

面对全新的AI模型,也许我们更应该做的是:如何更好地使用它,而不是抱怨它还不够完美

好了,不说了,我要去充钱买o1 pro 了!

(文:AGI Hunt)

欢迎分享

发表评论