请注意:o1不是用来聊天的!

o1用户集体翻车了?

10月发布o1,12月推出o1 pro/o3,如今稳居LMArena排行榜第一

但为什么还有那么多用户觉得它「不好用」?

反观Sam Altman,对大家的吐槽却并不在意,反而觉得很有趣。似乎一点儿也不担心,信心满满。

那么,问题出在哪里?

是真的不好用吗,还是用错了姿势呢?

事实上,如果你还在用传统聊天方式跟o1对话,那真得重新学习了!

因为o系统模型 并不是简单升级,而是一次彻底的范式转变

在Apple VisionOS工作多年、后来创立Dawn Analytics的Ben Hylak就曾愤怒地吐槽:「每次提问都要等5分钟,就为了收到一堆自相矛盾的垃圾,还附带不请自来的架构图和优缺点列表。」

他甚至发推抱怨:

200美元每月的订阅费就这?」

o1回答的过程,其中有许多内耗

但随后发生的事情让Ben大吃一惊——他发现AI圈的资深人士们对o1评价极高。

这让他开始思考:是不是自己用错了方法?

o1:一个高级「报告生成器」

经过深入研究,Ben发现了问题的关键:o1根本不是用来聊天的

它更像一个「报告生成器」。传统模型通过对话来收集信息,而o1需要你一次性提供所有内容。

o1的技术特色

o1有一些独特的技术特征:

API能力

  • o1-preview和o1-mini支持流式输出

  • o1支持结构化生成和系统提示

  • API可以指定推理努力等级(low/medium/high)

自我提升

如swyx指出的,你可以在提示中加入评判标准,让o1能够自我评估和改进输出。这就像内置了一个「LLM评判员」。

「喂养」o1的艺术

Ben提出了「o1提示解剖学」框架:

  1. 明确目标:清楚说明你要什么

  2. 指定格式:具体定义输出形式

  3. 设置警告:列出注意事项

  4. 倾倒背景:提供海量上下文

为了方便输入上下文,他推荐:

  • 语音备忘录记录问题(1-2分钟)

  • 利用产品内置AI助手(如Supabase Assistant)

  • 建立上下文模板库

  • 把所有失败尝试都告诉o1

关键是:不要告诉o1怎么做,只要告诉它你要什么

o1的超能力清单

通过实战检验,o1展现出惊人能力:

代码生成

  • 一次性生成多个完整文件

  • 遵循已有代码库风格

  • 几乎零语法错误

查询语言

  • 完美处理ClickHouse语法

  • 精准使用New Relic查询

  • 不会混淆不同数据库语法

医疗诊断

Ben的女友是皮肤科医生,他尝试让o1诊断病例:

  • 准确率达到60%

  • 差异诊断极其准确

  • 适合作为专业人士辅助工具

概念解释

  • 自动生成完整文档

  • 提供详细示例

  • 支持方案对比

o1的短板

但o1确实有明显缺陷:

风格固化

永远是学术/企业报告腔,很难改变。

应用开发

虽然能完美生成单个文件,但构建完整应用还需大量迭代。

界面问题

ChatGPT在使用o1时问题特别多:

  • 移动端经常崩溃

  • 推理描述常常离谱

  • 有时会产生意想不到的错误

产品设计的新思路

o1的界面应该反映其本质:

导航体验

  • 添加迷你目录

  • 支持章节快速跳转

  • 参考Perplexity的设计

上下文管理

  • 显示已提供信息概览

  • 支持模板管理

  • 借鉴Claude的附件显示方式

界面优化

  • 分页显示内容

  • 提供可折叠标题

  • 改善移动端体验

延迟的另一面

有趣的是,o1的高延迟反而开创了新机会:

等待时长与任务类型

  • 5分钟:代码审查

  • 1小时:架构设计

  • 1天:研究报告

  • 3-5工作日:系统规划

如果设计得当,等待是值得的

新应用场景

这种交互模式正在催生新应用:

  • 长时间运行的分析任务

  • 深度文档理解

  • 复杂系统设计

  • 专业领域辅助

这不是简单的模型更新,而是交互范式的革命

随着模型成本上升,试验成本也水涨船高。但如果用对方法,o1完全可以证明其价值——毕竟,月费200美元,节省1-2个工程师小时就回本了

你准备好拥抱这个全新的AI交互范式了吗?

(文:AGI Hunt)

发表评论