OpenAI 离职员工深度复盘:7 周上线 AI 爆款,卷到凌晨、陪产假都没休完

随着 Meta 加大挖人力度、OpenAI 内部动荡不断,员工流动早已见怪不怪。但今天这位刚离职三周的员工 Calvin French-Owen 写下的自白,提供了一个不加滤镜的内部视角。
他在去年 5 月加入 OpenAI,恰好赶上这家公司声量最大的一年。他见证了公司从一千人扩张到三千人,也亲手推动了 Codex 项目从原型到正式上线。
外界习惯把 OpenAI 想象成一个高度集中、协同作战的超级团队。但真实的 OpenAI 更像一个由无数小团队并行推进的集群系统,没有统一路线图,也很少节奏同步,执行胜过流程,研究方向往往不是由上而下指定,而是通过激起研究员的兴趣或挑战欲望,让他们主动去解题。
比如 Codex 的发布,仅用了 7 周,全靠一小撮人硬拉上线。在他看来,OpenAI 身上保留着一种老派的技术理想主义:目标是 AGI,哪怕出错也没关系,改了接着干——但绝不会等大家都点头才启动项目。
这是一份离职者的复盘,也是一份参与者的记录。撕掉光环滤镜之后的 OpenAI 远比外界想象中更混沌,也更真实。
附上博客地址:https://calv.info/openai-reflections
关于 OpenAI 的一些思考
我在三周前离开了 OpenAI,我是在 2024 年 5 月加入这家公司的。
我想分享一些自己的感受,因为现在关于 OpenAI 的讨论很多,但真正了解在那里工作文化的一手经验却不多。
Nabeel Quereshi 写过一篇很棒的文章,叫《Reflections on Palantir》,他在里面探讨了 Palantir 的独特之处。
我也想趁记忆还新鲜,对 OpenAI 做个类似的回顾。这里不会涉及任何商业机密,更多是一些关于这个历史上最令人着迷的组织之一,在一个极具意义的时刻,它的现状和氛围的个人观察。
先说明一下:我离开的决定并没有任何个人上的戏剧性,事实上我对此非常纠结。作为一个曾经创办过自己公司的创业者,再回到一个拥有 3000 人的大公司做员工,这个转变并不容易。现在我更希望有一个新的开始。
当然,也完全有可能是未来的项目吸引我再次回去。
毕竟,很难想象还有什么事情能比构建 AGI 更有意义,而大语言模型无疑是这十年来最重大的技术创新。我感到非常幸运,曾经亲眼见证了一些关键的发展,也参与了 Codex 的发布。
显然,下面这些只是我个人的看法,不代表公司立场。OpenAI 是一个庞大的组织,而我只是在其中的小小窗口。
工作文化
了解 OpenAI 的第一件事,就是它的发展速度有多快。我刚加入时,公司只有一千多人。一年之后,已经超过三千人,而我就已经排进了公司资历最久的前 30%。几乎所有领导层的人都和两三年前的职责完全不同了。
在这种极端扩张速度下,很多东西自然都会出现问题:公司内部沟通、汇报结构、产品发布流程、人力组织与管理、招聘制度等等。
不同团队的文化也差异很大:有的团队始终处于冲刺状态,有的负责大规模运行的维护,还有一些以更稳定的节奏推进。可以说,没有所谓统一的 OpenAI 工作体验,研究、应用和市场推进团队的时间节奏也完全不同。
OpenAI 的一个特别之处是:所有沟通,真的是所有沟通,几乎都发生在 Slack 上。公司没有内部邮件系统,我在整个任职期间大概只收过 10 封邮件左右。如果你不够有条理,那 Slack 会让你非常分心;但如果你能精心管理频道和通知,其实也能很好适应。
OpenAI 在研究方面非常注重「自下而上」的推动。当我刚入职时,我问了一下下个季度的计划是什么,得到的答复是:「这还不存在」(虽然现在已经有了)。
好的点子可以来自任何人,很多时候事先也很难判断哪些想法最终最有价值。与其说有一个宏大的「总计划」,不如说是在不断试验中寻找成果,研究的推进更多是循序渐进、随成果而来的。
正因为这种「自下而上」的文化,OpenAI 也是一个非常重视能力的地方。在公司内部,领导者的晋升往往取决于他们是否能提出优秀的想法并切实落地执行。很多非常有能力的领导者,在公司全员大会上演讲或搞政治手腕方面并不擅长。但这些在 OpenAI 并不太重要,远不如在其他公司那么关键。好点子通常确实会脱颖而出。
公司内部有一种很强的「行动偏好」(你可以直接去做事)。不同但相似的团队有时会在没有协调的情况下,不约而同地想到类似的方案。我刚加入时就在做一个和 ChatGPT Connectors 类似的内部项目。
Calvin French-Owen 

当时大概有三四个不同版本的 Codex 原型在同时推进,最后我们才决定集中力量进行正式发布。这些项目大多由少数几个人发起,不需要事先获得批准。一旦项目有了起色,团队就会自然地围绕它迅速组建起来。

Codex 的负责人 Andrey 曾告诉我,你应该把研究人员看作是「迷你执行官」。大家都有强烈的倾向想独立推进自己的想法,看看会有什么结果。对应的现象是,大多数研究项目都是通过「技术激将法」(让研究员对某个问题产生兴趣)来推动的。如果一个问题被认为无聊或已经解决了,那几乎没人愿意再去碰它。
优秀的研究管理者影响力非常大,但资源也非常有限。最出色的管理者,能够把多个不同的研究方向串联起来,从而促成一次更大规模的模型训练。优秀的产品经理也是一样的道理(特别感谢 ae)。
我合作过的 ChatGPT 工程管理者(Akshay、Rizzo、Sulman)都是我见过最有经验、最稳的人。他们给人的感觉就像什么都见过了。他们大多数都不过度干预,但会尽力招到合适的人才,并确保他们具备成功的条件。
OpenAI 的方向转变非常迅速。这一点在我们过去的公司 Segment 就被非常看重——当你有了新的信息时,果断调整方向远比固守既定计划要明智。
令人惊讶的是,像 OpenAI 这样规模的公司,竟然还能保持这样的思维方式——Google 显然已经做不到了。OpenAI 的决策速度非常快,一旦决定朝某个方向走,就会全力以赴地推进。
公司目前面临着极大的外部关注。对我来说,来自 B2B 企业背景,这种情况一开始让我颇为震惊。我经常看到媒体报道一些内部都还没正式公布的新闻。
有时候我跟别人说我在 OpenAI 工作,对方往往已经先入为主地对公司形成了一些看法。甚至还有 Twitter 上的用户设了自动机器人来监测是否有新功能即将上线。
OpenAI 是一个非常注重保密的地方。我不能向外界详细透露自己在做什么。Slack 里有很多不同权限的工作区,收入和资金消耗等数据也受到严格保护。
OpenAI 的氛围也比你想象的要严肃,部分原因是公司所做事情的影响实在太大。
一方面,我们的目标是构建 AGI,这本身就是一个需要谨慎应对的巨大挑战;另一方面,我们又在打造一个有上亿用户依赖的产品,涉及的应用从医疗建议到心理咨询无所不包;再另一方面,公司也正在参与一场全球最大规模的技术竞赛。
我们会非常关注 Meta、Google 和 Anthropic 的动向,我相信他们也一样在密切关注我们。世界上几乎所有主要政府现在都在密切关注这个领域的发展。
虽然媒体上经常批评 OpenAI,但我在公司里遇到的每一个人,实际上都是真心想把事情做好的人。由于面向普通用户,OpenAI 是所有大型 AI 实验室中最为公众可见的,因此也成了最容易被攻击的对象。
话虽如此,也不应该把 OpenAI 看成一个铁板一块的组织。在我看来,OpenAI 更像是最初的洛斯阿拉莫斯国家实验室:一群科学家和工程师在探索科学前沿。这个团队意外地催生出了历史上最具传播力的消费级应用,随后又逐渐开始尝试与政府和企业展开合作。
不同工龄、不同部门的人,在公司里往往有着截然不同的目标和价值观。你在 OpenAI 待得越久,可能就越是从「科研实验室」或「非营利公益」视角来看待这个组织。
我最欣赏 OpenAI 的一点,是它在「让 AI 惠及大众」这件事上确实做到了「说到做到」。最前沿的模型并不只提供给签年约的企业客户使用,世界上任何人都可以打开 ChatGPT,甚至无需登录就能获取答案。
API 也向公众开放,许多最先进甚至是专有的模型,很快就会通过 API 提供给创业公司使用。你可以想象一个完全不同的商业模式,但 OpenAI 选择了这样一种对外开放的方式,这一点值得高度肯定,也是公司文化的核心之一。
安全问题比你从 Zvi 或 Lesswrong 这些地方读到的可能要更受重视。OpenAI 有大量人员在专门研究和构建安全机制。基于公司的性质,我看到更多的是对实际风险的关注,比如:滥用、偏见操控、武器构造、提示注入等问题。
而对于一些理论性风险(比如智力爆炸、AI 寻求权力)也确实有人在研究,但不是重点。大多数安全方面的工作目前并未公开发布,OpenAI 在这方面其实还应该做得更多,把这些内容介绍给外界。
不同于那些在各大招聘会上疯狂发放周边的公司,OpenAI 几乎不怎么发放公司纪念品(甚至连新员工也不例外)。公司采用的是「限时掉落(drops)」的方式,在特定时间开放库存商品供员工自行下单。
第一次掉落的时候,甚至因为太多人抢购,把 Shopify 商店都挤崩了。公司内部还流传着一篇帖子,教大家如何通过发送正确的 JSON 请求绕过系统限制。
不过,说到底,这些开销相比 GPU 成本简直都是小数点后的零头。举个例子:Codex 产品中的一个小众功能,其 GPU 花费就和我们整个 Segment 基础设施的 GPU 成本差不多(虽然 Codex 没有 ChatGPT 那么大规模,但流量也不小)。
OpenAI 可能是我见过最野心勃勃的组织。你可能会觉得,拥有全球顶级消费级应用之一已经足够了,但公司仍然在同时发力多个领域:API 产品、前沿研究、硬件、代码代理、图像生成,还有一些尚未公开的方向。这里非常适合那些愿意把想法付诸实践的人。
公司非常关注 Twitter。如果你发了一条关于 OpenAI 的推文火了,很有可能内部有人会看到并认真考虑。
一位朋友曾笑称:「这家公司靠 Twitter 的气氛在运转。」作为一家面向消费者的公司,也许这并不夸张。当然,公司依然非常重视数据分析,比如使用情况、用户增长和留存等指标——但「氛围」同样被看得很重。
OpenAI 的团队运作比很多地方要灵活得多。在 Codex 发布的过程中,我们需要一些经验丰富的 ChatGPT 工程师协助,以确保按时上线。
我们和 ChatGPT 的工程管理者们开了个会提出请求,第二天就有两位非常给力的工程师加入团队并立即投入工作。这里没有什么「等下季度计划」、「重新分配人手」的流程,一切推进得非常迅速。
公司的领导层也非常高可见、积极参与。这一点或许你在 OpenAI 这样的公司会有所预期,但实际体验依然令人印象深刻。无论是 gdb、sama、kw、mark 还是 dane 等高管,都会在 Slack 上频繁参与讨论,发表意见。没有「挂名领导」,他们是真正在场的参与者。
代码
OpenAI 使用一个巨大的单体代码库(monorepo),主要是用 Python 写的(不过现在也有越来越多的 Rust 服务,还有少量用于网络代理等用途的 Golang 服务)。这导致代码风格五花八门,因为 Python 写法实在太多了。
你可能会遇到既有出自 Google 老员工、专为大规模系统设计的库,也有刚拿到博士学位的研究员写的临时 Jupyter 笔记本。绝大多数系统都围绕 FastAPI 构建 API,并用 Pydantic 进行数据验证。但公司并没有统一强制执行的代码风格指南。
OpenAI 所有服务都部署在 Azure 上。
有趣的是,在我看来,Azure 上真正可靠的服务就三个:Azure Kubernetes Service、CosmosDB(文档型数据库)和 BlobStore(对象存储)。Azure 并没有像 AWS 那样的对应产品,比如 Dynamo、Spanner、Bigtable、BigQuery、Kinesis 或 Aurora。自动扩缩容也不是常见的思考方式。
Azure 的 IAM(身份与权限管理)也比 AWS 的要受限得多。公司在很多基础设施方面倾向于自建。
在工程团队方面,有一个非常明显的趋势是:大量来自 Meta 的人才流入 OpenAI。某种程度上,OpenAI 很像早期的 Meta:一款爆火的消费级应用、还在成长的基础设施,以及极强的推进速度。
我见过的大部分基础架构人才,都来自 Meta 或 Instagram,技术水平都很强。
因此,OpenAI 的很多核心基础设施也带有 Meta 的影子。例如公司内部重写了类似 TAO 的系统,也有统一边缘身份认证的尝试,还有其他一些我可能不知道的项目。
Chat 的体系非常深入。自从 ChatGPT 爆红之后,大量代码结构都围绕「对话消息」和「会话」这些概念展开。
这些原始结构已经深深嵌入系统中了,如果你忽视它们,可能会吃亏。我们在 Codex 中虽然有些偏离(更借鉴了 responses API 的经验),但还是大量借用了已有的基础。
代码就是一切。公司没有什么统一的架构委员会或统一规划机制,通常是哪个团队准备动手做,决策就由他们主导。结果就是,公司整体非常鼓励行动,代码库中也经常出现重复造轮子的现象。比如,我见过不下六套关于队列管理或代理循环(agent loop)的库。
不过,快速扩张的工程团队和不完善的开发工具,确实在某些方面带来了问题。
比如 sa-server(主要的后端服务)有点像是「垃圾收纳场」,什么都往里塞。主分支上的持续集成(CI)比你想象的要容易出故障。即便并行运行测试,并且只测试部分依赖,整个流程在 GPU 上也可能要跑 30 分钟。
这些问题不是无解的,但它们提醒我们,在任何公司,这类问题都是客观存在的,而且当扩张速度非常快时,问题往往会加剧。值得肯定的是,公司内部确实有很多人在专注于改进这些开发体验。
我学到的其他东西
什么是真正的大型消费品牌。在开始做 Codex 之前,我其实并没有真正理解这一点。在 OpenAI,一切都围绕着「Pro 用户订阅数」来衡量。
即使像 Codex 这样面向开发者的产品,我们在设计用户引导流程时,首要考虑的也是「个人使用体验」,而不是团队协作。对我这个从 B2B / 企业级产品背景过来的人来说,这种思维模式的转变有点颠覆认知。在这里,只要你把功能「开关」一开,第一天就会立刻涌入用户流量。
大型模型是如何训练的(高层次理解)。整个流程从「探索实验」到「工程实现」是一个连续谱。大多数新想法最初都是以小规模实验开始的。如果效果不错,就会被纳入更大规模的训练任务中。实验工作不仅涉及算法本身的调整,还包括数据组合的调试,以及对结果的细致分析。
而当训练规模变得很大时,这个过程几乎就像是在搭建一个超大型的分布式系统,会出现各种边缘情况和意外问题,最后都得靠你自己去调试解决。
如何给 GPU 做预算。为了让 Codex 顺利上线,我们必须提前评估系统所需的 GPU 资源。
这是我第一次真正花时间去做 GPU 基准测试,也学到了一个很实用的原则:预算不能只看 GPU 的「最大负载能力」,而要从系统的响应延迟需求出发——比如总响应时间、token 数、首个 token 的生成速度等。每一代新模型上线后,流量模式、使用方式、响应特性都会变化很大,从上往下估算反而容易失准。
如何在超大 Python 代码库里协作。我之前在 Segment 工作,系统是典型的微服务架构,用的是 Golang 和 Typescript,代码体量相对可控。而 OpenAI 用的是一个巨大的 Python monorepo,协作方式完全不同。
这里我学到的,是如何围绕「多人协作」设置必要的保护机制:比如默认能跑通的开发环境、始终保持干净的主分支、以及避免误用的代码结构。这些小细节,是支撑大规模协作的基础。
Codex 的发布之旅
我在 OpenAI 的最后三个月,几乎全身心投入到了 Codex 的发布。对我来说,这是职业生涯中最令人振奋的一次经历。
这个项目的目标其实在 2024 年底就定下来了——2025 年要发布一个真正可用的代码代理(coding agent)。到了 2025 年 2 月,公司内部已经有好几个原型在测试代码任务,效果很不错。
但那时候我们也都能感受到强烈的紧迫感:模型已经很强,必须抓住机会推出一款面向开发者的 Agent。从市面上突然冒出来的各种「氛围编程」工具,也能看出这个方向正变得炙手可热。
为了参与 Codex 的发布,我提前结束了陪产假回到公司。回来的第一周,我们进行了两个团队的合并(过程稍显混乱),随后就立即开始了一场疯狂的冲刺。从写下第一行代码,到产品最终上线,整个过程只用了 7 周时间。
那可能是我近十年工作强度最大的一次冲刺。大多数晚上都要忙到十一点甚至更晚,凌晨五点半又被婴儿叫醒,七点回到办公室继续写代码,周末几乎没休息时间。我们整个团队都在全力以赴,因为每一周都至关重要。这种节奏让我回想起当年在 Y Combinator 的日子。
很难用言语去夸大我们当时的节奏有多快。我从未见过哪家公司——无论大小——能从一个想法走到完整发布、并且向所有人开放使用的产品,仅用这么短的时间。
更何况,这个项目的范围一点也不小:我们构建了一个容器运行时、优化了代码仓库下载流程、微调了一个专为代码编辑优化的模型、处理了各种 Git 操作、创建了一个全新的交互界面、实现了联网功能,最终打造出了一个真正让人使用愉快的产品。
无论你对 OpenAI 有什么看法,这家公司依然保有那种「快速发布」的精神。
幸运的是,我们聚集到了一批「对的人」,才让这一切变成了现实。整个核心团队由大约 8 名高级工程师、4 名研究员、2 位设计师、2 位市场/商务人员,以及 1 名产品经理组成。
如果没有这个组合,我觉得我们可能真的搞不成。这群人不需要过多指导,但确实需要良好的协调。若你有机会和 Codex 团队中的任何一个人共事,请相信他们每一个都非常出色。
上线前一晚,我们五个人熬到凌晨 4 点,才把主服务部署好(这是一个耗时数小时的过程)。然后早上 8 点又准时回到办公室,进行上线发布和直播。我们切换上线开关,立刻就看到用户流量开始涌入。我从未见过一个产品,仅仅是出现在 ChatGPT 的左侧边栏,就能带来如此立竿见影的效果——这就是 ChatGPT 的力量。
在产品形态上,我们最终选择了一种完全异步的交互方式。这和当时的 Cursor(它后来也支持了类似模式)或 Claude Code 有很大不同。
我们的目标是让用户可以发起任务,然后让 Agent 在自己的独立环境中运行。我们押注的是——在终局状态下,用户应该把代码代理当作「同事」:发条消息给它,它用点时间处理,然后再回来提交一个 PR。
这其实是一种冒险:当前模型的能力处在一个有点「尴尬」的阶段——已经很强了,但还不够完美。它们可以运行几分钟,但还无法连续工作几个小时。用户对模型能力的信任度也差异很大。而且,说实话,我们自己也不完全清楚这些模型的真正能力边界到底在哪。
但从长期来看,我确实相信,大多数编程工作最终都会演变成类似 Codex 这种模式。在这个过渡阶段,市场上各种产品的发展轨迹将会非常值得观察。
Codex(这也许不令人意外)在处理大型代码库、理解项目结构、导航跳转方面表现非常出色。相比其他工具,我看到的最大优势在于:它可以同时发起多个任务,并对比它们的结果输出。
我最近看到有一些公开数据在比较不同 LLM 代理提交的 PR 数量。仅看公开数据,Codex 已经生成了 63 万个 PR。换算下来,在上线后 53 天内,平均每位工程师就产生了 7.8 万个公开 PR(私有 PR 数量可能还要多好几倍)。说实话,我一生中可能从没参与过影响力如此巨大的项目。
临别感悟
说实话,我最初对加入 OpenAI 是有所犹豫的。我不确定放弃自由、去有一个上司、成为大机器中的一个小齿轮,这样的状态是否适合我。我入职时也刻意保持低调——以防不合适时还能体面离开。
我希望从这段经历中得到三件事:

建立对模型训练机制的直觉,以及对能力边界的认识

与优秀的人共事并向他们学习

推出一个真正优秀的产品
回顾这一年,我认为这是我人生中做出的最正确的决定之一。很难想象还有哪里能让我学到这么多。
如果你是个创始人,正感觉你的创业项目陷入停滞,我建议你认真考虑两个方向:
1)重新评估你是否还能创造更多「得分机会」;
2)加入一家顶级实验室。
现在是一个极其适合「动手创造」的时期,但同时也是一个探索未来、看清趋势的绝佳时机。
在我看来,通向 AGI 的竞争现在是三足鼎立:OpenAI、Anthropic 和 Google。每家公司都会基于自己的基因,走出不同的路径——消费级产品导向 vs 企业服务导向 vs 基础设施和数据的极致掌控。能进入任何一家,都是一次开阔眼界的机会。
特别感谢:
感谢 Leah 的无私支持,在我无数个深夜工作时承担了大部分育儿任务;
感谢 PW、GDB 和 Rizzo 给我这个机会;
感谢 SA 团队的伙伴们带我入门:Andrew、Anup、Bill、Kwaz、Ming、Simon、Tony 和 Val;
更感谢 Codex 核心团队带给我这段终身难忘的旅程:Albin、AE、Andrey、Bryan、Channing、DavidK、Gabe、Gladstone、Hanson、Joey、Josh、Katy、KevinT、Max、Sabrina、SQ、Tibo、TZ 和 Will。
我永远不会忘记这次冲刺。
1.
每当一位高管离职,人们总喜欢解读成各种戏剧性的故事,但我认为其中大约 70% 的原因其实只是组织发展阶段的问题。
2.
我确实觉得公司正处在一个「相变期」。现在公司正在大量从外部引入高级管理者。总体上我支持这种做法,我认为引入「外部基因」对公司有很大好处。
3.
我的感觉是,打造史上增长最快的消费级产品,会自然锻炼出一身本事。
4.
当然,我们也是站在巨人的肩膀上。CaaS 团队、核心强化学习团队、人类数据团队,以及整个应用基础设施,让这一切成为可能。
5.
我们后来也把这种冲刺精神延续了下去。
6.
几周前,Meta 那边也进行了一些重要招聘;xAI 推出了表现不错的 Grok 4;Mira 和 Ilya 手下都有很多优秀人才。也许这些都会改变局势(他们的团队确实很强),但目前他们还有不少追赶要做。
欢迎加入 APPSO AI 社群,一起畅聊 AI 产品,获取#AI有用功,解锁更多 AI 新知👇
我们正在招募伙伴
📮 简历投递邮箱hr@ifanr.com
✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)
更多岗位信息请点击这里🔗

(文:APPSO)

发表评论