o1不是聊天模型！前SpaceX工程师：这样用o1才能解决复杂问题

新智元报道

编辑：英智

【新智元导读】Ben Hylak从最初对o1不满到逐渐掌握使用技巧，成功将其转化为解决重要问题的得力工具。本文探讨了如何正确使用o1，解锁其强大的报告生成和推理分析能力。

「我是如何从讨厌o1到每天用它来解决我最重要的问题的？

我学会了如何正确使用它。」

Ben Hylak曾是SpaceX软件工程师、苹果VisionOS人机交互设计师，后来离职创立了Dawn Analytics。

起初，Ben Hylak对o1满是质疑，如今却成为了o1的活跃用户。

o1不是一个聊天模型，这正是关键所在。

o1 pro刚宣布推出，Ben就果断订阅了。毕竟，只要它每月能顶替1-2个工程师的工作量，这每月200美元的订阅费就花得值。

然而，经过一整天认真的试用，Ben得出结论：这模型简直太糟糕了。

每次提出问题，Ben都得等上5分钟，结果等来的却是一堆前后矛盾的废话，还莫名其妙地附上架构图和优劣势分析列表。

Ben把吐槽放到了网上，不少人表示赞同，但也有一些人强烈反对。这些观点来自行业一线的专业人士，有人对o1 pro的表现大为惊叹。

Ben渐渐意识到自己完全弄错了，他一直把o1当成聊天模型来用，可o1压根就不是聊天模型。

如果o1不是聊天模型，那它究竟是什么？

它更像是一个「报告生成器」。

只要你能提供充足的上下文信息，并且清晰地阐明所需的输出内容，它通常能完美解决问题。

提供充足的背景信息

提供海量的上下文信息。无论你认为「海量」是多少，在此基础上乘以10倍。

当使用诸如Claude 3.5 Sonnet或4o这类聊天模型时，一般是从一个简单问题和一些上下文信息入手。如果模型还需要更多上下文，它往往会向你提问。

聊天模型正是通过互动的方式从你那里获取更多上下文。

o1只会按照你问题的字面意思作答，不会主动从你这里获取上下文信息。

所以，你得尽可能多地向o1提供上下文。

哪怕只是问一个简单的工程问题，也请做好以下这些：

详细说明你已经试过的所有方法，以及这些方法为何行不通。
提供所有数据库架构的完整导出文件。
阐述公司的业务内容、规模大小，同时对特有的术语进行定义。

简单来讲，就把o1当成新入职的员工来对待。

为o1提供上下文的简单技巧：用Mac或手机上的语音备忘录，直接通过语音对整个问题场景进行描述，时长在1-2分钟，把转录的文本粘贴进去。

聚焦「要什么」而非「怎么做」

给o1提供尽可能多的背景信息后，关键是讲清楚你期望的最终输出成果。

我们习惯告诉模型怎么回答，如请以资深软件工程师的身份，仔细思考后作答。

但o1的使用方法不一样。别告诉o1该怎么做，只说要什么，然后让o1自己来，它会规划并解决后续步骤。

这能充分发挥o1的自主推理能力，实际运行效率或许比手动审核、对话沟通的方式更高。

你必须清楚具体需求，比如，是想让o1实现某个特定架构，还是创建一个最小化的测试应用。

o1第一次就能生成正确答案的能力着实令人惊叹。除了成本和延迟，o1在几乎所有其他方面都更为出色。

o1的优势与不足

o1的优势

一次性生成单个或多个文件：只需粘贴大量代码以及与正在构建内容相关的上下文信息，它就能一次性完成整个文件（甚至多个文件）的生成。生成的内容几乎没有错误，并且会严格遵循代码库中已有的模式。

较少出现幻觉：总体而言，o1在理解问题时似乎很少产生混淆。

医学诊断：对于医学专业人士而言，o1通常能给出与正确答案极为接近的诊断。

解释概念：o1在阐释极为复杂的工程概念方面表现卓越。

评估：o1展现出了作为评估工具的潜力，它经常能在上下文信息有限的情况下，判断生成结果是否正确。

o1尚未实现

特定语气/风格的写作：o1在写作方面的表现欠佳，特别是在模仿特定语气或风格时。它自带一种浓厚的学术/公司报告风格，而且始终如此。这可能是因为大量的推理token将语气导向了这个方向。

构建完整的应用：o1一次性生成单个或多个文件的能力很强，但它无法直接构建完整的SaaS应用，至少需要大量反复调整。不过，它基本上能一次性生成完整的前端功能模块，或简单的后端功能模块。

网友评论：o1/pro是我用过的第一个可以很好地完成高级软件架构的模型！

（文：新智元）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

新智元报道

【新智元导读】Ben Hylak从最初对o1不满到逐渐掌握使用技巧，成功将其转化为解决重要问题的得力工具。本文探讨了如何正确使用o1，解锁其强大的报告生成和推理分析能力。

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复