对话 Rabbit 创始人吕骋:做 AI Agent,向所有人开战

硅星人(骆轶航 王兆洋)
吕骋 Jesse Lyu (Rabbit 创始人&CEO)

是的,Rabbit,那个一度声名鹊起的第一代 AI 硬件公司,下场做 AI Agent 了。

4月3日,Rabbit 发布 RabbitOS Intern。这是一个通用 AI Agent 产品,也是最近井喷式涌现的通用 AI Agent 阵营里最新的一员。毫无疑问,它将与此前引发广泛讨论的 Manus,以及同日发布的 Genspark Super Agent 等产品直接竞争。

顾名思义,RabbitOS Intern 是一个 AI “实习生”,旨在自主完成用户提出需求的复杂任务。在社交媒体 X 上和Discord 上,都已经有不少使用案例。有人用它建立了各种网站,有人通过prompt 输入开发出了飞机战斗游戏,还有人开发了乒乓球游戏,并用 r1的“开发者模式”把它装进了r1 的硬件里。目前,RabbitOS Intern 提供了限时免费体验,r1 硬件用户每天可用9次,非 r1 用户每天可用3次。

Rabbit 在去年发布的 r1 是目前销量最高的AI硬件,在发布后的三个月便卖出10万台。这也让外界把这家由前智能音箱公司渡鸦 CEO 吕骋创办的公司理解为了一家AI硬件公司。但在吕骋看来,r1的爆火是意料之外的事,在他的规划里,Rabbit不是一家硬件公司,甚至不会因为RabbitOS Intern 的发布而成为一家通用 AI Agent 公司,而是像“RabbitOS” 这个名字一样,成为一家追逐 AI 时代全新操作系统的公司。

而业界热衷讨论的通用 AI Agent,是 Rabbit 试图构建的这个全新 AI 操作系统的基础设施。Rabbit OS Intern是通往最终目标的一部分,按吕骋的说法,这些 Agent 第一次有机会打破目前人机交互界面和操作系统格局,它能用新的、自然语言的方式操控和去实现机器底层运行,这也要求它必须是跨平台的多 Agents 系统。

我们在最近与吕骋做了一次深度的交流,和他聊了聊Rabbit OS Intern背后的思考。

以下为对话实录。

Rabbit不是一个硬件公司:以 APP 为基础的 OS 过时了,跨平台的“多 Agents” 将成为新的操作系统

硅星人:讲讲过去这 12 个月吧。从Rabbit r1一年前亮相到现在发布 RabbitOS Intern 这个 AI Agent产品,能不能讲讲 Rabbit r1 和 Agent 这两个之间的关系?

吕骋:我觉得是这样,第一个,外界尤其是美国很多人对我们其实会有不同的观点,认为我们是专注硬件的公司。但我从创办上一家公司渡鸦开始到现在,一直的观点就是:硬件只是个载体。如果你把一个 V12 的引擎放在马背上,这肯定是不行的,你不会指望它比一个真正的车快。

所以我其实从渡鸦开始看到的机会并不是在说一个新的硬件长成这个样子,而是说以 APP 为基础的OS(操作系统)过时了,这个是核心。

作为一个创业公司,我们自己不是Google,不是Apple,也不是华为或小米——我们不是既有操作系统又有自己的生态。作为一个创业公司,你只能去提交一个 APP 或者做一个网页,对吧?那我们需要去思考的是,在操作系统的架构上是不是现在的 iOS 或者安卓就都可以承载(我们要做的事)?

我得出的结论是不行,没办法。所以我们必须要做一个硬件。

不是说我们为了去卖硬件而做硬件,或者我觉得硬件有多大的市场而去做硬件,而是说我们把 r1 设计成一个非常便宜的产品,它也不是用最新的芯片,用的也不是最好的屏幕,它是最小的成本,对创业公司来说最小的成本,但你有感应器和芯片层、数据层完全的控制权。

然后,我们的聚焦就可以是在云端的 AI gent。

所以这次 RabbitOS Intern 发布,也并不是说我们重新做了一件事,或者发布了一个新的功能,而就是我们按照我们的计划,把整个 Agent 的部分慢慢放在一起。

所以你如果看我们去年,我们先做了Playground,这是一个 Web Agent,比 Anthropic 的 Computer Use 其实早好几个月;后面 OpenAI 的Operator出来,我也做了横向对比;然后我们做了 teach mode, 现在市场上还没有对应的产品,你可以 one shot,给它示范一下,它就直接有了一个Agent;然后我们又放出了基于安卓的Android Research Preview。

接下来我们观察到Manus发布。因为我跟季逸超(Manus联合创始人)在我做渡鸦的时候(就认识),真格基金投了我们俩,我其实对他的vision 是很认可的,看到他们有这么大的一个splash(声势),我们觉得哎,其实我们这部分已经 ready了, 把它加上。

所以我们并不是说我们要转型,或者我们在硬件和软件中没想明白,或者在 Internally debate(内部争论),或者说我们一定要卡这个节点发。反而都不是,这个是严格在我们自己的路线图的计划上。所以今年我们的重心其实就是把各种各样的 Agent 全部都放在一起。

硅星人:为什么是各种各样的Agent?

吕骋:因为如果你看整个 AI Agent market,绝大多数都是创业公司,它其实就没有资源,或者没有勇气去做一个generic case(通用案例),对吧?大多数创业公司会说我做一个垂直的 Agent,我把垂直做得很深,那很快可以产生很多 ARR (年预期收入)。

硅星人:在硅谷这是特别通行的做法。

吕骋:对,这跟创始人的心态关系很大。我们很不一样,因为我公司卖掉过一次,我做这个东西当然是希望说为自己想象的愿景去做,所以我们其实承担了一个非常高的风险和非常大的压力去做通用 Agent。

其实我们看到 Manus 自己也说他自己是一个通用Agent,对吧。而我们从去年公司对外发布之前到现在,我一直在内部强调说我们要做 cross platform general Agent(跨平台的通用代理)。跨平台是非常重要的。也就是说你不能只做网页,只做一个手机应用,不能只做一个桌面应用,对吧?

但现在很多时候要做一个case,可能要用四五六七八个不同平台的产品,又回到了传统 APP 的底层逻辑的缺陷,也就是说:解决一件事,为什么要用好多工具?

大家在这个阶段讨论商业策略的执行,我觉得其实走的比较慢,因为我们要看到 AI 真正颠覆了什么事情的速度?如果你看 command line(命令行) 到 Graphic Interface(图形界面),为什么它是一个很大的 OS 的代际革命?核心是因为它改变的是:你不需要明白电脑编程语言就可以抓起手用鼠标画个圆。这导致了一大波的操作系统和计算机这么多年的辉煌。

那么我们看 AI 这一次,我们定义的 Cross Platform Generic Agent (跨平台通用代理)真正改变的是什么?我认为它的影响等同于从 command line (命令行)到 Graphic Interface(图形界面)。为什么?你去思考一下现代软件,它的设计逻辑,也就是图形交互界面这一代操作系统设计逻辑,电脑并不知道你要干嘛,对不对?你有麦克风,你也有语音识别,你所有的能力,从程序执行的能力都有,但是当我说我要分享个屏幕的话,你的电脑会帮你吗?不会。

现在的逻辑是,所有软件通过 UI (用户界面)来呈现,然后这些 UI 设计成人眼可以轻易识别,人脑可以轻易理解,然后把所有的 按钮全部都展现在你面前,等待着你去点击或拖拽。

那我们看看我们 Intern (Rabbit OS Intern)这个层级,当你让 Intern 生成一个PPT,它是不用 Microsoft的软件,而是直接在 code level (代码层面)帮你执行,这是很了不起的事情。为什么?因为它整个跳过了Interface (界面)这一层。

所以20222023 年初的时候,我跟设计团队说, UI is dead,UI design is dead,不要做UI了,这个已经没有意义了。

然后我们在 r1上推了 Generative UI,让你一个Prompt可以改变整个interface,你要这样想,虽然我们是个非常小的公司,但是它确实是人类历史上第一个整个设备的 UI 都是通过用Prompt可以生成的。我认为这是一个很伟大的事。

这个背后意味着什么?意味着现在我们定义的 Agent,真正重要的不是帮你做一件事,而是在哲学层面上把传统操作系统,就人机交互这层操作系统又颠覆了。也就是说我们认为最关键的点是它杀死了Interface 这层,那如果Interface都杀死了,那么application(应用) 这个壳还重要么,其实也没必要了。

硅星人:它杀死的是Graphic Interface(图形界面)。

吕骋:对, 是 Graphic Interface 这层。也就是说电脑并不需要用眼睛去看人眼看的东西,这也是我其实挺反对人形机器人。人形机器人这帮公司的逻辑是现在世界的Infra(架构),就是物理的Infra,全都是为人类这个形态设计,所以我把它设计成人形。但你仔细想,这跟我做 Agent 我先做垂类一样。我的观点比较激进,真的已经做成机器了,为什么要受限于人类形态的限制?

所以很多我的观点可能跟商业的一些正常逻辑会有冲突,这是我们自己为什么会有不同的主要原因,因为在很多观点上我们其实非常激进。

这一次我们看到最大的机会,其实并不是技术的革新,而是因为技术的成熟导致的产品的人机交互层面,甚至是哲学层面上的一些突破。你必须要思考说你做的这个东西是不是还是最优解,对吧?我一直会思考这个问题,你会发现很多甚至 80% 的以前的最优解,现在都不是最优解,那这是一件很可怕的事情,对吧?

在这个过程中你怎么去调整?也就是说把人做的事情跟机器做的事情的比例怎么去分配?这件事是我一直在思考的,昨天我还跟团队说,做完这个 Intern, 我自己用了很久以后,我发现了一个问题,就原来我们以为人类很喜欢做计划的,思路计划得我们人类来定,对吧。

硅星人:人的计划能力其实不行。

吕骋后来发现,第一,人类计划能力根本不行,第二其实人类根本不喜欢做计划。我现在思考,人类就是喜欢 todo list,你就告诉他几件事去,甚至说连 todo list 都不喜欢,人类喜欢的什么?人类喜欢是你发表一个观点,我去 diss 你。其实就是 proof reading (阅读校正),这是我觉得人类最喜欢的事。我跟郭帆导演经常聊,聊到流浪地球接下来该怎么拍,我觉得就两个主题,第一个就是 whats natural reality,对吧?真实到底是什么?第二个我建议他拍当技术已经完全到 AGI,甚至 beyond AGI (超越AGI)以后,人类该怎么自己调整心态?我说你的主题应该是人类在 AGI 时代里面仅剩的尊严是什么。你看人类在这么长的历史长河中时间里,因为我们技术的局限性,找不到更高级的外星人,在本身地球上的这个副本也比较简单,导致人类的印象是我们是全世界最聪明的物种。现在这个事儿在接下来的 20 年要变化了。那么究竟有多少人能适应这种心理的变化?如果我们变成了我们现在眼里的小动物,变成不那么聪明的 second tier (第二链条)里,那么有多少人受得了这个?这是我们做完这个一系列的 Agent,至少在我个人里面,迅速发酵的一系列的自我的想法。

人机交互彻底变了:“人类对机器的控制,在 Agent 我觉得是完全归零了”

硅星人:如果我们回到产品本身,你对于 Agent 的理解,是一种打破了目前人机交互界面的、新的、通过自然语言操控和实现这个机器底层逻辑的方式。

吕骋:我可能会补充一点,就是说 Agent跟传统的 API 比,还是一个代际的革新。其实你看计算机超越人类是很早以前的事儿,自从发明那一刻开始,计算能力就比人类强。这么多年我们都OK about it。那为什么这一次 AI 有这么大的讨论呢?是因为在之前的这种程序运行中,你对结果是可控的。结果没有随机性,你对这个结果的预期是固定的。那 AI 的这些产品出来以后,其实早就从智能音箱时代开始,从 NLP (自然语言处理)时代开始,你对这个结果的控制力已经减弱了。直到你失去控制。我让他去给我做一个报表,我根本不知道他找的是哪些数据,我根本不知道他觉得哪重要。我甚至不知道他有多少个角度。

人类对机器的控制,在 Agent 我觉得是完全归零了。

所以 Agent 跟传统的 API 或者传统工具对比,最重要的一点,是除了它理解自然语言以外,你把planning(规划)、 reasoning(推理)和 execution (执行)的控制权全部都放掉了。

我们这个产品(RabbitOS Intern)跟单一的 Agent 相比不同的地方,就是当你去试我们产品的时候,你会看到旁边它会有不同的一个 task (任务),会有细节,你点开可以看到后台在干什么。你可以理解成:我们架构很简单,当你说一件事的时候,我们直接给你原地招一个团队,这个团队里面有一个人是CEO,他来做 planning(规划),他写了一个这个做这件事的 plan, markdown 发布,然后把这个文件传递给所有的招来的 intern (实习生),然后 independent intern 自动领任务。比如说有一个 intern 他叫A,他说好,我来负责设计网页,另外一个人说我来负责做 research,另外一个说我来负责网页的这个UI。

那这些控制权其实完全都下放,所以我们认为我们这个系统更像是一个 multiAgent coordinating system(多代理协作系统)。

Rabbit 的路线图:“像Manus这样的产品,对我们来说就是附加了一个功能而已”

硅星人:你刚才提到 Multi-Agents 的协调,这是你们很重要的能力差异点。那么你怎么去评价我们的同行在 Multi Agent 的成果?包括像 Manus 这样新进出来的公司,也包括像 Operator 和 Computer Use 等,为什么你觉得你们的 Multi-Agents 做得最好?

吕骋:嗯,第一个我不认为这是个技术壁垒。我还要说这句话,我从渡鸦刚开始就说,世界上就没有技术壁垒。什么叫技术?技术的核心就是分享。所以我特别讨厌那种论调,就说,唉,我们有个啥绝活。你们有个啥绝活?技术的本身它就是共享。在商业上,作为一个商业公司你不能重复造轮子。

所以说我认为真正的壁垒在哪?就是两个层面,第一个层面是因为这个东西对我们来说并不是一个单一产品,它是我们自己加的一个功能,当然我们也写了一大堆专利,但是这个Agentperformance上真正重要的是什么?是一些我认为的脏活累活。这些脏活累活其实会做出差异的。

举个例子,我不认为 OpenAI ,Anthropic 或者 Gemini的产品在 consumer level (消费者层面)有多大的优势。因为你去看他们的工作重心,其实大多数是科研 research。在 research 层面上,我如果说我有一个这么小的问题,你去解决,在那样的公司文化里,你很难找到人愿意下场去解决这些脏活累活,他们会说你再等三个月,下一个模型自动解决。这是一个商业逻辑竞争的这个区别。对我们来说,我们做了很多非常细节的事。

最早为什么 r1 比 AI Pin 快那么多?就是我们把整个的 voice dictation (语音听写)到大语言模型的 token 做了streaming,我们写的第一个专利。这件事儿其实你给任何一个非常厉害的 researcher,他都可以说 I understand how it works(我知道它该怎么实现)。但我们到底是在这儿竞争菲尔茨奖,还是我们在这儿 offer 用户体验呢?

这也是为什么我们不跑 benchmark ( AI 基准评测) 。因为这就是个开卷考试,你可以无限优化,那它的意义是什么?为了融资,那融资也是融到的不懂的投资人。我就讲一个非常简单的例子:无论你benchmark领先其他人多少,对于终端用户,它就是两极分化,他不关心你为什么失败,结果就是成了和失败。所以从数学上理解 benchmark 逐渐接近100%。当然overall performance (整体表现)会增高,但并不意味着直接提升用户体验。

我的观点还是 build car not engine(造车而不是发动机),不能变成一辆发动机引擎等核心都很炫酷,但拆开后各个细节都不过关的车。这是一个 complex question(复合性问题),并不是解决一点就一定能立竿见影。

我们今年的目的是,把所有的用户的记录所有这些关联的 Agent,所有的用户的偏好全部都 merge(糅合) 起来。到那个时候我觉得大多数人就会意识到为什么你要有个硬件设备

我再举个最简单的例子,就是 Agent 处理验证码,目前的机制设计初衷是防止恶意的机器人,但现在我们有数百万的 Agent 都是善意的(机器人),对吧?那整个验证机制要重写。但对我们来说,我们能做到的就是,当我们的 Agent 访问一个网站的时候,网站在背后看到的不是一个 AWS Server host in middle of nowhere(偏离角落里的亚马逊云服务器主机)。它是 r1的终端用户,用户真人是在同一个位置为了这件事我们解决了可能 60% 的 pattern,另外我们现在在写自己的control driver,那我们认为就可以解决 99% 的场景了。

很多时候为什么我们能 work,或者体验稍微更好一点,并不是什么大道理,是非常细节的。这些东西你加起来可能有 1000 个、10000个甚至 10 万个,就看哪个团队愿意让自己的手变脏,去真正解决这些问题。最后你发现其实并不是所有的公司都有这样的文化。

另外,我觉得长期看来我们一定是领先者。因为我觉得 vertical (垂类)的 Agent 在所有 Agent 背后的模型能力变得 general (通用)以后都没有意义,没有价值。在模型变得 general 以后,最大的坎其实并不是你做一个像Manus或像我们的 Intern这样的功能,而是说你怎么彻底的解决把整个人机交互这一层全部干掉。那这一点要求什么?就是 cross platform(跨平台)

我们没走一点弯路,像Manus这样的产品,对我们来说就是附加了一个功能而已。我们明天就可以把它扔出去,但这件事还远未做完。

把跨平台的能力全部都建立起来,我们会面临OpenAI也自我辩论的问题——我到底要变成 Oracle 还是我要变成苹果,对吧?这也是我跟投资人讲的。我认为 OpenAIOracle。就是每个公司都要用它,但它永远不会比苹果的市值高。因为它们之间的竞争远比在终端消费者这儿的竞争激烈。所有的模型的 token 成本一定会逐渐变成商品,还要和开源的比拼。

这些公司也在尝试终端用户的产品。但你会发现它竞争不过甚至我们这么小的一个公司,我们融了7000多万美金。他们的关注点根本不在我们这个东西,我们这的 focus 对他来说太小,但是对用户来说太大。

这是我们在过去年中学到的一些生存之道,我们作为一个这么小的公司,在这个舞台上竞争肯定是非常艰难,而且受到非常多的误解。但是从结果上来讲,如果你去拉一条时间线,我们什么时候说了什么,以及我们什么时候放了什么,你看整个行业基本上是在跟随状态。

硅星人:其实我们是把 Agent 当成一个 operating system (操作系统)在做的,而这个 operating system 其实是一个非 GUI(图形界面)的操作系统。所以我们能不能定义:你们的 Agent,也就是操作系统,实际上是一个 large action model(大行动模型)。

吕骋:我们第一个提出 LAM 的。

硅星人:但是你们没有做模型。

吕骋:事情会慢慢地走到一起。为什么这次我们在 RabbitOS 上加了“Intern”这个名字,就是我们第一次认为它在逻辑上,在哲学逻辑上变成以人的方式思考。因为之前都不是,之前我们是调模型,这次是第一次把我刚说的几层能力都下放。你可以理解成这个员工也会升职,他明年会变成rabbit OS junior(初级员工)、 senior(高级员工),VP(副总裁)之类。所以反过来讲,为什么我们不着急推出硬件的 R2、R3、R4、R5,其实我们也有很多原型在这里,我还是希望把整个新的代际的变革,从GUI 转变为新的 Agent 原生的 OS 做完。

把这件事做完以后,其实最早就跟我在渡鸦讲的操作系统 Flow 一样,未来应该只有一个操作系统在云端,它可以流到任何设备里面。然后我对硬件的判断就是当我们把这件事做好以后,我们出什么都 make sense,我们出耳机也跑的是一套代码,手表也是一套代码,眼镜也是一套代码,所有的东西都是一套代码,都是用语言控制或者自然语言控制。

最关键的是整个系统的后台,最根本的逻辑升级了。因为今天即使像苹果,iPad OS、 iOS 和 MacOS 也是三个东西,在人类历史上我们没办法把这个东西掌控,这次是第一次我们可以做到。我个人的角度,就是渡鸦这件事没做完,这也是为什么我又来做这件事。

硅星人:它是一个持续的事,所以就是说在你的这个布局里边,其实它首先是要用自然语言去改变人机交互的基本的方式,瓦解掉其实已经存在了大概四五十年的图形界面。

吕骋:对。

硅星人:然后把它做成一个 Multi Agents 驱动的操作系统。这个操作系统背后是集成了很多个模型能力的。而这些模型可能就是我们看到的 MySQL 和 Oracle 这样的角色。然后在上边你必须要再做一层,能够去让这套多 Agent 组合能流畅地跑起来的硬件。而这个硬件本身可能是一个很“空”的东西。

吕骋:是这个意思,这个硬件就是个载体。就是个shell(壳),看它长什么样无所谓。嗯,他甚至都不需要最好的specs(规格),因为绝大多数的东西都在云。

并非所有人都理解的野心:“我做好的是这个公司可能都会死的准备”

硅星人:OK,所以外界现在对你这套想法怎么看,包括是你聊过的一些同行,投资人等等。他们现在对你这个想法,你觉得最大的误解是什么?

吕骋其实我觉得第一不是所有人都能认同,认同的人相对来说比较少,甚至大多数人不认同。为什么不认同,他有一万种理由,那我就不揣测了。但是我觉得最大的一个原因就是这件事很难,或者说大家认为这件事很远。他其实并不是对我观点不认同,他是对这个事谁能做出来不确定。

硅星人:嗯,他觉得可能是 OpenAI ,Apple 和 Anthropic 能做出来。

吕骋:对,那这个是一个很好理解的事情。当时 Apple 要发 Apple intelligence 的时候,一大堆人在推特说“RIP Rabbit” 。所以我说的人类最擅长的是什么?人类最擅长就是 diss,我从做 AI 里面我悟出来的。

当然,对我个人的野心来说,并不是说别人说我说的对,或者说别人认可我这个观点,而是说我在这条路上我自己能往前走。我第一个发现其实对我来说是我的 luxury(宝藏),任何一个人能第一个看到一个趋势,对他来说都是他的 luxury。那在执行过程中如果你能保持速度,那最后你就会把这事做出来。

所以说我是很小心的在保护这个东西的,我的目标其实并不是让所有人都同意,所有人同意不一定是好事,任何东西所有人同意马上就会产生更多的竞争者。反而是那些不太被同意的人反而就有机会。

我经常开玩笑,我说你看我们看我们受了这么多骂,你去想想早期特斯拉受到多少骂。它证明了自己相信的趋势是对的但它可能需要提前 10 年时间, 20 年、 30 年准备。那我在这个趋势上,我自己卯了十四五年,我认为我是很幸运的,10 年前我要的技术没有人有,现在反过来我要的技术很多人都有。那我就把它实现。

我有一个独木桥理论,就是你把事情做成就相当于过个独木桥。你会发现 10 个人要过,你只要踩上第一步,就已经是第五。因为有五个人想了但没走。然后会有一个哥们走反了,你就第四了,然后会发现总有一个哥们踩不稳,踩两步掉下去,这时候你已经第三名,然后这三个人里面总有一个哥们走的比你和另外一个哥们走的慢,你已经第二名。当你是前两名的时候,有一个东西就出来了,叫运气。会 randomly take (随机给予) 一个人。这是我的理论。

反过来就把这个理论印证到我们公司的发展,我们第一个踩上桥,然后在这个桥上面我们坚持没有走反,我们走正确的方向,速度上面我们走的也不慢,也没有掉下去,我们还活着。那这个就是我认为就是我们现在能拿到最好的结果,继续往前走就好。

从我看到其他产品,比如说景鲲这两天发的(指 Genspark 发布的 Super Agent),然后Manus也发了,这很有意思。当一个东西它非常成熟,以至于每个人都可以做以后,用户你知道最后会挑什么?会挑颜色。这是一个很小众的理论,我给你举个例子,就是全世界的竞争产品到最后一定会剩下 2 ~ 3 个,然后一定是一个红色,一个蓝色;或者说一个黄色,一个红色。你仔细想,沃尔玛和Target,共和党民主党。当一个东西你这儿也能买,那也能买的时候,我为什么我买?因为我觉得它 logo 长得好。

所以说当Manus和我们和新的产品或者未来的产品竞争的时候,差别会越来越小。一个到两个点。

硅星人:这个点一定是颜色吗?有没有可能是一个特别让你去让用户觉得就这个体验我觉得最惊艳、最amazing的东西?

吕骋:对,我说到颜色是所有该竞争都竞争完以后,最后是一定是颜色。因为这里面我有观点,就是人只对一些非常简单的东西感兴趣。光明和黑暗,对光感兴趣,有个地方亮着,你一定要看看什么东西在亮,人对色彩感兴趣,人对 extreme(极致) 感兴趣。极大的东西,极小的东西,极快的东西,极慢的东西。人对重复感兴趣,人对 1234,2234,再来一次感兴趣。为什么人类对音乐感兴趣?因为它是节奏的重复。

所以说你把这个东西归根结底大家在功能上都满足以后,最核心的部分其实是非常哲学的这些几个判断标准。

硅星人:那比如像我们的产品就是我们的一个硬件配上我们的 RabbitOS,嗯。其实带给大家的这个最 extreme(极致) 的东西可能是什么?

吕骋:嗯,那就是到了end of the day,人类必须要做不得不做,但没必要做的事情全部解放。嗯,这是我觉得最大的一个社会价值。这是一个需要非常谨慎去考虑的事情,我们推一行代码,到底要不要推,以后有什么样的影响?

我们 Intern出来之前,有一个用户就在我们 Discord 社区上说你们r1就是一大堆 gimmick(花招),什么 use case 都做不了啊。我们也没回复。但昨天我们把 Intern 发出去之后,这个人其实是一个美国的婚礼策划,然后他就说 holy shit! 这个取代了他所有的工作。我说三天之前你可不是这么说的。

这就是这几行代码产生的效果,所以我们都得自己去思考这个东西背后的影响。当然说从短期来讲,或者说未来五年来讲,我觉得是一个漫长的过渡期。 5 年之后我觉得所有该解决的 Infra level (架构层)的东西都解决。我认为现在真正影响体验的其实是 Infra level,并不是技术 level。我并不认为这件事是一个单纯 AI 技术的突破就会导致商业结果。大多数情况下,相反是周围的一些东西先瓦解,是人类整体历史计算机架构的革新,所以这次要把周边的东西全部都推翻,它代价非常高。

硅星人:尤其是操作系统这一层,其实它是所有 Agent 工作的核心,其实是一个新一代硬件的新 OS。

吕骋对。然后在这一点上你去看大公司就没有优势,因为就拿苹果来说,它70% 的钱都是 APP store 赚来的,怎么可能把 APP store 干掉?你去革新,革到最后你周围的那一套推不掉。

硅星人:这里边也很有意思啊。你频繁提到苹果,它也正是 GUI (图形界面)的推动者。

吕骋:对,你去思考的话,苹果其实也不是发明GUI的。但他们厉害的地方是产品化。苹果厉害地方有两点,第一个就是所有人都认为你要做计算机,你当然去做 business company,你别做 to C,你做 toB,对吧?因为 IBM 那会儿只做 to be?那个时候都是银行要用,政府要用,是你为什么要做 to C?to C 赚不到钱,谁会买个电脑?这是最早的观点,他们第一个厉害的地方是:他们认为应该做 to C。第二个厉害的地方,是他们认为我们不需要依赖于现有成熟的架构,也就是当时的 BASIC 语言,当时的一大套的这个商用的计算机的核心的操作系统。

所以他们把两件事都做了,所以厉害。你去看现在的创业公司有哪些公司一开始把这两件事都想明白?很少。但是你不把这两件事都做了,你就卡在人家的生态里面出来。我可以做一个 APP,用户评价会更好,少挨很多骂。但它在 APP 的这个局限性上也实现不了更多的功能。所以说我为什么讲到特斯拉的例子,就是他一开始一定会被骂,而且会被骂得很惨,对吧?

你能活下来算你有本事,但大概率你不行。这个觉悟我是自己做好的。

硅星人你做好的是 r1 死掉的准备,但不是说你整个的蓝图做不成的准备。

吕骋我做好的是这个公司可能都会死的准备。但是我坚定的认为这个思想的路线和这个应该做的事情是没错的。所以说,是我们能做成不一定,但是如果让我去选择一个正确的道路,肯定得这样。

硅星人:所以当时你跟Vinod Khosla也是这么讲的么?(注:Vinod Khosla 是美国著名科技富豪、风险投资家,OpenAI的首位风险投资人。Rabbit创办后获得 Khosla连续投资。)

吕骋我跟Khosla讲的核心,是因为他是一个特别特殊的VC。他跟比尔盖茨差不多大。他做的SUNMicrosystem,正好是旧时代被干掉的。所以他的个人体会是非常深的。我跟他说,你看现在这层软件的底层的核心逻辑都发生变化了,他马上就get了,所以这是一非常特殊的例子。但这件事换成其他的 VC 他不一定认。

硅星人:我也观察到,他甚至包括 Eric Schimidt (施密特,SUN 联合创始人、曾任Google CEO)这拨人对于 AI 的反应特别敏感,而这拨人今年都已经 70 岁了。一个非常重要的原因,就是因为他们是上一波这个通用计算和个人计算崛起的亲历者。他们是从计算的底层逻辑,而不是从不是 “Web to Mobile,then to AI ”这样的逻辑去理解 AI 带来的变化。

吕骋对,用户的角度上来了解的话,体会不到那么远,那么并不是说一件事在远方正确,它在近处就是正确,很多程度上在远方正确,近处是错误的。但你要做的并不是说你去在第一站去证明你是正确的,而是说你尽快的从第一站到第五站,到第八站、到第十站,第十站它是正确就行。所以这个算是我个人的风格,如果不这样想的话,我很多策略也不会这样做。

我就是一个比较自己跟自己较真儿的人,当然很幸运,我有很强的团队跟我一起较真。风险绝对大。那这个我没话说。这也是当年渡鸦的故事,到那个节点我作了决定,当时如果我们不卖掉,我们肯定死。我说的这个死不是说我们当时缺钱了,我当时真正决定我要卖的核心是因为整个 Flow 那一代系统基于API。但 API 被大公司控制了以后,小公司没有机会。但 large action model (LAM)它是一个不需要 API 的东西。我第一天我就告诉大家不能用任何的API。

硅星人:那你们跟其他的这些基座模型的靠的是?

吕骋:对, Model 的连接这些是API,但是 action 一定不能是API,所以这是我自己从上一段经历学到的。所以像是景鲲发布的那个工具(Genspark Super Agent),他还是在连接很多的API,我可以负责任的告诉你,他那个东西规模化起来肯定不行。Manus 跟我们一样,是在 code level(代码层) 去做 execution(执行),它的问题在于它是不是能突破单一的平台。

硅星人:这个单一的平台是指的是他对于某一个基座模型的过度绑定和依赖吗?

吕骋:我说的是他现在能做的是 computer task(计算机任务)对吧?他能不能做 mobile 上的 task?因为今天我们每天在用的 90% 的应用事实上在手机上。这是为什么安卓这边我们也用同样的 Agent 在做。聊到最后你可以看到一些决策上的区分和区别。其实背后的思考就是非常简单,我们认为它应该是个 cross platform(跨平台),这个也是从渡鸦那段经历里面学到的。

把这个事更简化一点,现在这一代的 AI 真正的魅力在general(通用),不管你的目的是个什么,它都能执行,这才是它真正的厉害之处。

r1爆火不是好事:“但我把它变成另外一个事情——我说OK既然都这样了,那我们就把Humane干死”

硅星人:刚才聊了不少哲学层面,我有一个感受是,你对把握住趋势很在意,刚才聊到过去12个月,大体上趋势在按照你的预测走,但事实上在几个关键节点上,其实节奏看起来可能会被打乱,比如r1最初的爆火你提到过,是意料之外。

吕骋:这件事不是我装的。我跟同事说只要能卖出 3000 台我就高兴。这个是事与愿违的事情,我真的不想让他火的。你想谁会想到一个 45 分钟 Keynote 有 1100万的播放量,谁会想到这件事?我当时是我们完全没有做好准备说要卖这么多。我就是澄清一下。

硅星人:我感觉比如 r1 最初爆火这样的事,外界可能会在那个时候认为是一个好事,但从我们观察,你如果是对一个趋势非常在意的创业者,像是r1爆火,以及后面关于安卓的争议,这些要么本身就是以一个负面形态出现,要么是意外的情况,其实都会影响你的具体的节奏,而你应该不是一个喜欢被打乱节奏的人。所以作为一家商业化的公司的创始人,连续创业的老兵,你需要去处理这些日常挑战。我很好奇你怎么去平衡这两者?

吕骋:这个点是任何一个媒体没有问过的。它非常重要的一个逻辑就是说,你认为的好事不一定是真正的好事,外界和内部的观点是特别不同的。第一,我们确实没想好,我认为火对我们来说不是好事。第二,在这个过程中,这个团队在接受到一个一个挑战,我不认为这是坏处,这挑战你能不能 overcome?因为人不能只是说做一件事然后另外一件事,你要你团队和团队之间变强,它是一个综合的变强,我需要让团队能够应对到各个挑战,而非只是我们预想好的挑战。

你看我们怎么处理的?从我们计划的3000台到 10 万台的logistic(物流),包括所有的生产、关税乱七八糟,包括众多国家,我们在三个月中全部解决。而且那个时候我就跟大家讲,意外来了是好事,因为我们有收入,我们 r1 的这个 margin(利润率) 很高。那我就把convert (转化)成另外一个观点——我说OK既然都这样了,那我们就把Humane干死。我一定要看这个公司“死”。哎那这样一说这就不是挑战了,就变成一个目标了。

在管理过程中其实我需要经常评估,但是我又跟团队说,我说在4月底正式发售的时候,要维持每周一次的 OTA(软件后台升级),我们真正做到了。r1 出了 30 多个OTA,哪一家公司能每周给个 OTA ?我说在这段时间我们就fix,fix,fix。但是在4月底以后,我们把该 fix 的fix完以后,一定不要在主线上变慢。我需要在尽快的时间内搞出 teach mode,Android LAM,Agent,搞出现在这个Intern,所以我经历过几次创业以后,我自己是越来越明白该怎么处理这些事。

再把这个话说简单点,那你如果遇到意外情况,你少睡几个小时呗。在这里,圣诞节多么重要,但我们没有一个人回去,你就拼命嘛。但你如果看硅谷很多的创业者,他其实并不是这样子,为什么?这个团队背后的这个逻辑判断导致了他做产品不一样。

大家拍脑门儿都会觉得做 vertical (垂直领域 Agent)来钱快了,但这个事情在你已经为你的理想追求了十年以后,你看的其实已经不是短期的 ARR 了。这一次创业来说,对我来说就把这个事铆出来,铆钉到两个结果,一个是我做出来了,一个是我死掉了。都可以。

硅星人:所以 ARR 其实是一个对做通用产品的创业者来说,没有价值的一个衡量标准。

吕骋:我觉得是它是一个负资产。它当然有价值,因为你要融资,对吧?但你不能把它当作唯一的目标。这个就谈到了另外一件事,就是定价。我们也想看 Manus 怎么定价。那我们看到了。

再次创业,成熟了:“我真正成熟的点,是很多东西我以前认为是大事,但现在认为是小事;很多东西以前认为是小事,现在认为是特别大的事,比如定价”

硅星人:你怎么看 Manus 的定价?

吕骋:我们最近有很多讨论。先不讨论他们具体的定价。我怎么去看定价这件事呢?第一我希望让它变得简单点。像Manus 定价我付了月费,我还要算1万个 token,每一个 prompt 运行多少 token,然后我还并不知道我这个 prompt 到底会花多少 token。这个过程中给我内心创造的这个不安定感和未知感,我觉得这个体验就不好。第二,确实现在这跑这样类型的 task 它不便宜,它不会是一个便宜的探索。

我们自己最近在讨论的是,第一,买了 r1(你再用Intern) 一定更便宜,一定更优惠。没买 r1,我们会在让你觉得在某个节点,买了我们的设备更优惠。我们并不是要着急把我们设备卖出去,而是说有了设备以后你综合体验可能更好。这在后面有很多可以结合的东西去做。

而且,这类的产品在越高频的用户上一定是亏钱,在没有那么高频的用户上反而是有利润可赚。所以这是我们最近思考,但是我们没有宣布我们的定价。所以我倒反而认为这类产品不一定是最终大的deal不一定来自于toC,而应该是来自于 toB。就是,如果我是个人来说,我可能就做一些小游戏自己玩一玩,或者我做一些random search。但是你想,如果这个东西把真正的一个公司里面的一个 Intern 取代,那这个公司永远愿意为他买单,而且更便宜。所以我认为可能有点像 Slack 或者 Figma,它可能更大的利润会来自于机构而非个人。这是我现在的想法。

那么反过来想,我查了一下我现在在的 Santa Monica 这个地区平均真人实习生的工资,时薪大概是 17 ~ 25 块钱一个小时,美金啊,25 美金。如果你按一个全职实习生一周工作 5 天 8 个小时的话,他一个月差不多是 2780 美金到 3500 美金。如果这个 Agent Intern perform 的跟真人一样,而且他不用休息,他在 24 小时跑的话,我相信用户付 1/ 10 的价格应该不过分。

硅星人:其实如果按 1/ 10 的价格算,它就是 Manus最初的那个定价279美金就对了啊。然后他觉得不能比 OpenAI 高,就调到了199。

吕骋:我认为在这个上面我们应该还会 charge more(收更多的钱)。为什么呢?因为我们最终要看是不是可以多个 Agent 并行。也就是一次招 100 个Agent,对应真人每一次招 100 个Intern,每个 Intern 一个月可是要付 3,000 块钱。所以说为什么我们叫Intern,我们就想把这件事点明了,你千万不要跟 Netflix 19块9毛9 一个月来比,你千万不要跟 Spotify9块9一个月来比。他是个人,对吧?你要去思考的是你看一下这个月的财报,你给你的实习生付了多少钱?

所以我们希望把这个东西点明,如果把这件事不说明白了,大家会很烦的,因为会觉得 Spotify才收我这么点你怎么收这么多。所以说定价在这种产品上来说是个大哲学,我们没有那么快去得出一个结论,但是我可以告诉你我的核心的思考,第一你必须要跟真人的 labor(劳动力) 来比较,都参照,嗯,这件事必非常重要。第二就是你不能让用户有一个复杂的计算系统,就我付了每个月我还要再算token。嗯,这件事本身从交互就是从用户体验上来说就是复杂的。

定价在这个上面确实是重要的。而且我可以告诉你,如果定价定不好,任何类似的产品都不会成功。

硅星人:听你这么仔细聊定价,很有意思。你自己刚才其实也简单提到了两次创业心态的一些变化。你之前最开始创业的时候,大家给贴的标签还是意气风发的天才,然后你自己也曾经去对标像乔布斯,盖茨在同年龄的时候在做一些什么样的事情。似乎你当时更多在追求自己喜欢的事情,只要对内证明自己就行,然后现在好像给自己立了很多外部的竞争对手,有了更多争胜欲。

吕骋我今年五月份就 35 了啊。人的 20 多岁和 30 岁心态一定是不一样啊。我经常跟别人开玩笑,Once You’re 30, then 50,because nothing happens in between(笑)这个是不一样的。

这一次我觉得我真正成熟的点,是很多东西我以前认为是大事,但现在认为是小事;很多东西我以前认为是小事,现在认为是特别大的事。就 定价这个东西,我认为在 10 年前我不会认为它是个多大的事。我会认为我们算一下多少钱可能回本多少钱就行。但这一次我认为是个特别大的事,是至关重要的事,我们当时的定价我相信我们绝对是给Humane这个公司捅上了最致命的一刀。在1月 9 号的时候他再也没有爬起来。

所以在什么事情重要这件事上,我过去这 10 年发生了很多思考的变化。

“当我第一个看到那个宝藏在哪,但最后被别人打开,你说如果发生这种事,你是会depressed(沮丧)”

硅星人:个人风格上呢。

吕骋:个人风格上面我倒并不觉得我变了。个人风格上面我如果说简单点,我根本就说白了,兄弟,我根本不想创业。你26岁卖了公司,你为什么又义无反顾的又自己在这折磨自己这么多年?没必要。

我核心还是因为,当我能够第一个看到的时候,我第一个看到那个宝藏在哪或者盒子在哪的时候,最后被别人打开,你说如果发生这种事,你是会depressed(沮丧),对吧?

所以这本质上还是一个跟自己较劲的一个一个过程啊。只不过说我们在商业的决策上这一次考虑的更多元,可能层次更复杂一些。

但是反过来,很多人不知道渡鸦当时怎么做出来的,很多误解和偏差。我给你举个简单的例子,当时跟渡鸦同时还在做的另外一家公司叫出门问问,你要看李志飞的团队是谷歌 NLP 实验室,谷歌撤了以后代码原封不动都留给他们,而我当时是一个 23 岁的毕业生,如果我们渡鸦不讲设计、不讲艺术,不讲这些乱七八糟东西,我们去看他天天,比如说谁在顶会上发了多少文章,你说我们活得下去么。

如果我们当时不去租芳草地那个非常 fancy 的 office,我们怎么吸引能力上突出的人才。如果从这个角度去思考,你觉得这些东西是我愚蠢的个人偏好,绝对不是,它全是策略,而且是唯一的策略。如果当时不这样去做,没戏,死的更快。

硅星人:你看你这一轮就不讲那些花里胡哨的东西了。

吕骋:这轮这些东西不用讲出来,事情发生以后我再讲出来,对吧?很多人问为什么定价199?那我现在给你讲出来,因为我要“弄死”Humane,而且我最快、最简单的速度弄死他,对吧?现在可以讲出来,那很多我们针对接下来的 竞争的东西我们还在酝酿。所以这可能是另外一个误解,我可以把我们的策略包装成很好,包装成我的个人意志或者我的个人风,到最后让大家来骂我,看不懂的话我最喜欢,最好是事后看懂的问题当下最好别看懂,对吧?

我们为什么一直不发Intern?我们就等着谁第一个发,而且我们能做到他第一个发,我们第二天就发,我第二周就发,三周就发。对,这就是我们,而为什么我们在景鲲的 Genspark Agent 同一天发,对吧?这些东西你说是我个人偏好,没问题,但反过来讲背后有很多策略在。

大混战的时代来了:“现在任何人都是任何人的竞争对手”,“如果我有一点比别人稍微厉害一点,就是我觉得我跟狗一样,我的鼻子比较灵”

硅星人:你提到了竞对,所以 RabbitOS Intern的竞争对手其实是哪些?毕竟你刚才其实提了太多次的Manus。

吕骋竞争对手绝对不是Manus,肯定不是,绝对不是。我觉得现在任何人都是任何人的竞争对手。就是以前你说美团和点评是竞争对手,你绝对不会认为美团和滴滴是竞争对手。这观点我没有见任何人把他点明过,今天在 AI 时代,任何人是任何人的竞争对手。因为核心逻辑为什么导致这一点?因为 AI 是通用的,嗯,他能做这个,他也能做那个,对吧?真正的竞争对手,你要看你自己怎么定义你的公司,你把你自己定成一个Oracle,那 Salesforce 应该就是对手,如果你要把你定义成 consumer product(消费者公司),那理论上来说 Apple 这样的公司就应该是对手。但是你要把自己定义的是又想做这个又想做那个,那你就会被董事会投出去,比如说OpenAI。(笑)

所以这是很有意思的事情,怎么定义你的竞争?因为你看我们当时跟Perplexity合作,给我们API,免费一年,我们是很好的朋友。但现在我还没把他们当对手,他们把我们当对手了。

硅星人:这是怎么发生的?就是Perplexity 发现了你们在后边做的 Agent?

吕骋:因为它最早做的是搜索,它的竞争对手是 Google,它现在对外宣称的竞争对手还是 Google。但是用户在上面搜一个最新的乔丹鞋,搜出来还想不想买?你想不想让他在里边买?你想不想让他完成 action?他只要一想完成 follow up action 的话,完了,我们成了它对手。

硅星人:任何人是任何人的竞争对手,这也就意味着就是其实很多定义现在是没法明确的。

吕骋:对,以及,你再想你把这个东西做出来以后你放在人家的平台上跑。如果你这个东西特别牛x,人家会不会做。 iPhone 手机和 Google 手机在本质上不可能允许一个更聪明的Gemini和Siri出现在它那儿,对吧?那这个时候,反过来你自己的一亩三分田,哪怕只是一个 199 的一个小盒子就有价值。

所以说很多很多东西换个角度就是完全不一样,我觉得我的状态并不是想去证明什么,这个事情你回看 track record(历史记录),从我渡鸦到现在都对,所以我们极其有自信。

这个自信怎么讲,并不是说我这个人比较狂。我经常跟别人说,如果我有一点比别人稍微厉害一点,我一直不觉得是我的智商,而是我觉得我跟狗一样,我的鼻子比较灵。

我自己都这样自己说的。我说我鼻子比较灵敏,我说会发生的事情是会发生的,我就跟团队说,你们就记住这一点就行。

硅星人鼻子比较灵作为一个创业者的能力,在不同的创业周期和创业时代里,对结局的决定性其实也不一样。现在可能更关键。

吕骋:我认为是更关键,真的是这样子。因为本质上就是因为,每个人都是每个人的竞争对手。你以前你辛辛苦苦 build 一个应用程序,那现在一个 14 岁的小孩用 Gemini 来 build 一个应用程序,他自己用就不用你的了。这是很可怕的一件事情。这也是为什么反过来讲,传统的老公司它没有优势,没有优势的原因不是技术,没有优势的原因是现有的地盘需要去保护,保护这个地盘的代价就是不能做任何新的东西。

硅星人:在你这个预判里,刚才提到你们在市场上还没有同类对手的是teach mode在这个功能。

吕骋:Teach mode我们现在只支持网页,我们去年按照我们承诺的上了,然后我们一个月内用户 build 了超过1万个Agent,这是一个很厉害的数据。但是它的系统还没有完成,所以我们现在还叫Beta,因为我们最终是希望它是 cross platform。

说到这一点,我不认为 2025 年或者 2026 年应该去做手机,但是我非常坚信 2026 年底到 2027 年,全世界会有第一个 fundamentally native AI Agent powered phone(彻底的原生AI Agent 驱动的手机),也就是没有APP。

我们觉得这个事情相对来说发生的会比较快,应该是在未来的一两年。

硅星人:谁是这里面的玩家?

吕骋:我们肯定会想在这里面尝试的,但是我们没必要做第一个。反过来讲就是为什么我们把这个东西(r1)做成这样。我们就是特别怕你把它理解成买了以后不用 iPhone,我特别怕这个事情。所以我们一开始都没有说这个东西是替代iPhone,这是个玩具。

硅星人:就是你想做成手机的形态,但不是这个时候做。

吕骋:不是这个时候做。其实,你如果做硬件你就知道,我们做手机比做这个费的劲要小很多。现在高度模块化。对吧?我们做这个的挑战要比做手机还大,但现在不是时候。

第三种结局?“我去年一年见了除了Tim Cook以外所有顶级公司的CEO”

硅星人:最后再问个问题,你刚才讲的这个公司的结局两种,要么做成可能像 Apple那样的成功,要不然就是死。有没有第三种可能性?比如在某一个阶段,可能就是面对了一个新的像 2018 年那样的百度的潜在买家,它可能是谁?

这个问题问的好,因为我去年一年见了除了Tim Cook以外所有顶级公司的CEO,OK,就是对于大公司的逻辑来讲,他们会算一笔账,如果这个事情他一定要做,买这家公司划算,还是我自己招 50 个人划算,就这么简单。

在公司应对收购上面,不光我的事,更是买家决定的。我们能做的是接到 offer 以后评估它是不是 make sense。

那有两种情况下是 make sense,一种情况下是你不接你就死掉。那他当然 make sense,对吧?绝大多数收购包括Humane 卖给 HP,绝大多数收购的结果不是好的。其实很多人不理解渡鸦当时谈了多好的一个deal,我们没亏,我们没让投资人亏钱,创始人还赚到了钱,团队还赚到了钱,然后我们还保留了我们的办公室、团队,甚至品牌。在百度2017 年的时候发的是渡鸦的产品,这对百度这家公司的文化是多么不可思议。所以如果当时那些条件不满足我也不会卖,但是这就是运气了。所以说在收购这件事上,即使我想卖或者我不想卖,最终决定权都不在我在买家那儿。

我们当然希望能够自己做大,因为对我个人来说,一个商业公司的结局有两个,要么IPO,要么被善意收购。也就是游戏的好结局有两个,其中一个好结局我打过一次,我想打通另外一个好结局,另外一个隐藏结局看能不能打通,但是好结局和坏结局里面肯定要需要好结局,不管它是什么样的好结局。

硅星人:OK,最后问一个,我们接下来能期待你们比较大的一个动作是什么?

吕骋:其实我们说的比较公开了,就是今年的目标是把所有的 Agent 放在一起。

你看我们现在Intern的部分加进来了,我们还有安卓的部分,我们还有Playground。我们今年的 focus 就是在接下来时间把所有的部分都加进来。

那个时候加进来以后你会突然发现世界上没有任何一个同类产品了。

点个爱心,再走

(文:硅星人Pro)

欢迎分享

发表评论