o1用户集体翻车了?
10月发布o1,12月推出o1 pro/o3,如今稳居LMArena排行榜第一。
但为什么还有那么多用户觉得它「不好用」?

反观Sam Altman,对大家的吐槽却并不在意,反而觉得很有趣。似乎一点儿也不担心,信心满满。
那么,问题出在哪里?
是真的不好用吗,还是用错了姿势呢?
事实上,如果你还在用传统聊天方式跟o1对话,那真得重新学习了!
因为o系统模型 并不是简单升级,而是一次彻底的范式转变。
在Apple VisionOS工作多年、后来创立Dawn Analytics的Ben Hylak就曾愤怒地吐槽:「每次提问都要等5分钟,就为了收到一堆自相矛盾的垃圾,还附带不请自来的架构图和优缺点列表。」

他甚至发推抱怨:
「200美元每月的订阅费就这?」

但随后发生的事情让Ben大吃一惊——他发现AI圈的资深人士们对o1评价极高。
这让他开始思考:是不是自己用错了方法?
o1:一个高级「报告生成器」
经过深入研究,Ben发现了问题的关键:o1根本不是用来聊天的!
它更像一个「报告生成器」。传统模型通过对话来收集信息,而o1需要你一次性提供所有内容。

o1的技术特色
o1有一些独特的技术特征:
API能力:
-
o1-preview和o1-mini支持流式输出
-
o1支持结构化生成和系统提示
-
API可以指定推理努力等级(low/medium/high)
自我提升:
如swyx指出的,你可以在提示中加入评判标准,让o1能够自我评估和改进输出。这就像内置了一个「LLM评判员」。

「喂养」o1的艺术
Ben提出了「o1提示解剖学」框架:
-
明确目标:清楚说明你要什么
-
指定格式:具体定义输出形式
-
设置警告:列出注意事项
-
倾倒背景:提供海量上下文
为了方便输入上下文,他推荐:
-
用语音备忘录记录问题(1-2分钟)
-
利用产品内置AI助手(如Supabase Assistant)
-
建立上下文模板库
-
把所有失败尝试都告诉o1
关键是:不要告诉o1怎么做,只要告诉它你要什么。

o1的超能力清单
通过实战检验,o1展现出惊人能力:
代码生成:
-
一次性生成多个完整文件
-
遵循已有代码库风格
-
几乎零语法错误
查询语言:
-
完美处理ClickHouse语法
-
精准使用New Relic查询
-
不会混淆不同数据库语法
医疗诊断:
Ben的女友是皮肤科医生,他尝试让o1诊断病例:
-
准确率达到60%
-
差异诊断极其准确
-
适合作为专业人士辅助工具
概念解释:
-
自动生成完整文档
-
提供详细示例
-
支持方案对比
o1的短板
但o1确实有明显缺陷:
风格固化:
永远是学术/企业报告腔,很难改变。
应用开发:
虽然能完美生成单个文件,但构建完整应用还需大量迭代。
界面问题:
ChatGPT在使用o1时问题特别多:
-
移动端经常崩溃
-
推理描述常常离谱
-
有时会产生意想不到的错误

产品设计的新思路
o1的界面应该反映其本质:
导航体验:
-
添加迷你目录
-
支持章节快速跳转
-
参考Perplexity的设计
上下文管理:
-
显示已提供信息概览
-
支持模板管理
-
借鉴Claude的附件显示方式
界面优化:
-
分页显示内容
-
提供可折叠标题
-
改善移动端体验
延迟的另一面
有趣的是,o1的高延迟反而开创了新机会:
等待时长与任务类型:
-
5分钟:代码审查
-
1小时:架构设计
-
1天:研究报告
-
3-5工作日:系统规划
如果设计得当,等待是值得的。
新应用场景
这种交互模式正在催生新应用:
-
长时间运行的分析任务
-
深度文档理解
-
复杂系统设计
-
专业领域辅助
这不是简单的模型更新,而是交互范式的革命。
随着模型成本上升,试验成本也水涨船高。但如果用对方法,o1完全可以证明其价值——毕竟,月费200美元,节省1-2个工程师小时就回本了。
你准备好拥抱这个全新的AI交互范式了吗?
(文:AGI Hunt)