
邮箱|damoxingjidongzu@pingwest.com
在本期 All-In Podcast,三位老友兼资深投资人——Chamath Palihapitiya、Jason Calacanis 与 David Friedberg——联袂掌舵,特别邀请到 Google 联合创始人 Sergey Brin 亲临对谈。一起聊了聊 Gemini 如何借助无限上下文与链式推理,将 AI 从被动执行者升级为认知合作者,也剖析了这一范式跃迁对技术生产力与人机交互边界的深远重构。
以下为本场播客内容实录:
Chamath Palihapitiya: 你简直像在打卡上班一样。我听说了一些消息,我们也聊过,你每天都在工作。
Jason Calacanis: 说实话,这算得上是我人生中最快乐的一段时光。我在疫情前大约一个月退休,当时创立了 Hidden Theory。我觉得这样挺好,我想做点别的,去咖啡馆待着,读读物理方面的书。结果过了一个月左右,我觉得那样的生活不太适合我。所以后来一旦可以去办公室,我就开始去上班了。其实当时有个OpenAI的朋友,叫Dan,我在一次聚会上碰到了他,他说,现在是计算机科学有史以来最伟大的变革时刻,对于你这样的计算机科学家来说更是如此。
Chamath Palihapitiya:你曾经是计算机科学的博士生。
Jason Calacanis: 我还没完成我的博士学位,严格来说我处于休学状态。我想,他说得对,这确实令人难以置信。大家显然都在关注所有的人工智能技术,作为一个计算机科学家,就技术层面而言,这绝对是我人生中最激动人心的事情。
Chamath Palihapitiya: 而这种指数级的性质和速度,让我们在职业生涯中所见过的任何事情都相形见绌。这几乎就像我们在过去三四十年里所做的一切,都是为了这一刻的到来。谷歌从100个用户和10名员工发展到现在,有超过20亿人在使用,我想有6个产品或5个产品超过了20亿人。这甚至不值得计算,因为地球上绝大多数人都在使用谷歌的产品。请你描述一下这个增长速度。
Jason Calacanis:我还记得早期互联网的那种兴奋感,当时是用 Mosaic,后来用 Netscape。有多少人还记得Mosaic?(环顾四周)嗯,挺少的。你们还记得当时有个“最新内容”页面吗?比如某所小学的网站,某个鱼缸爱好者的网站,还有迈克尔·乔丹的粉丝页面。
当时整个互联网就只有这三个新网站。很明显,互联网从那时起发展得非常迅速,那是一个非常令人兴奋的时期,然后我们有了智能手机。但是与此相比,人工智能的发展简直令人震惊。网络虽然普及了,但从技术上来说,每个月、每年并没有发生太大的变化。但这些人工智能系统实际上变化很大。你知道,如果你离开一个月再回来,你可能会惊呼:“哇,发生了什么?”
Chamath Palihapitiya: 有人告诉我你开始提交代码了,这让大家都有些吃惊。
Sergey Brin:发生了什么?
Jason Calacanis: 我提交的代码并没有什么特别令人兴奋的。我只是需要添加一些权限,以便能够访问某些东西,这里改一点,那里改一点,没有什么额外的。但你需要这样做,才能做一些基本的事情,运行一些基本的实验,我尝试这样做了,并接触了系统的不同部分,我觉得这很有趣。
其次,能够回到公司,不用承担任何的行政责任,但还能够深入到每一个细微之处,这真的感觉是一种荣幸。
Sergey Brin: 目前人工智能堆栈的哪些部分更让你感兴趣?有没有某些地方特别吸引你?
Jason Calacanis:我几年前,或者说一年前,就开始非常关注我们所说的“预训练”。大多数人认为的“AI训练”,不管人们怎么称呼它,由于各种历史原因,我们称之为“预训练”。这是个超级项目,需要投入大量的计算资源。我也学到了很多,看到我们从一个模型到另一个模型,也运行了一些小的实验,但基本上只是为了好玩,最近后期的训练,特别是当思维模型出现后,这标志着通用人工智能的又一个巨大进步。所以我们真的不知道它的上限在哪里。
Chamath Palihapitiya: 那你如何向一个普通人解释提示工程、深度研究以及正在发生的事情之间的关系?因为我认为人们并没有点击下拉箭头去观看 Gemini 手机应用中的深度研究,你们有一个手机应用非常棒。顺便提一句,在咱们聊过之后,我也买了 Fold 手机,“OK Google”功能简直太厉害了。当你要求它打开某个应用时,它真的会执行。而且它在深度研究中进行的线程数、查询数和UPS的数量达到了 200、300个。你能解释一下这种阶跃,以及你认为接下来会发生什么吗?
Jason Calacanis: 对我来说,人工智能最令人兴奋的地方,尤其是在今天,还没有达到人们追求的完全的通用人工智能(AGI),也不是超人的智能,但它已经相当聪明了,而且绝对会让你感到惊讶。它的超能力在于它能以我无法企及的规模完成任务。默认情况下,我使用我们的一些人工智能系统,它会抓取前 10 个搜索结果,或者一本书,然后从中提取你需要的信息。但说实话我自己也能做到,也许会花我更多的时间。但是如果它抓取前1000个结果,然后对每个结果进行后续搜索并深入阅读,那对我来说就是一周的工作量,我做不到。
Chamath Palihapitiya: 这就是我认为那些没有使用过深度研究项目的人尚未完全意识到的事情。之前我们请了一位 F1 车手到台上,我还是个新手,对此一无所知。我问,过去几十年里平均每年有多少起死亡事故?我想知道每行驶里程的死亡人数。它一开始说,这可能非常困难。我说,我允许你尽力尝试,给出你最好的理论。我们来做吧。然后它列出了有多少车队,有多少比赛等等。
Sergey Brin: 用哪个模型?
Chamath Palihapitiya: 我用的是 Gemini,非常棒。但我对待它就像跟它斗嘴一样,这对我来说还挺奏效。
Jason Calacanis:这事挺奇怪的,就像喝酒一样我们不绕圈子。但不仅仅是我们的模型,所有的模型如果你用类似暴力的方式威胁它们,往往会表现得更好,但人们对此感觉很奇怪。
Chamath Palihapitiya: 我当时威胁它说它不够“fabulous”,它也回应了。
Jason Calacanis: 之前你只要说 “如果你不喜欢那样,我就绑架你”。
Chamath Palihapitiya:它实际上建立了一个系统,我觉得我们应该把练习里程算进去,假设赛道上每英里有100英里的练习里程,然后它就给出了每英里的估计死亡数,然后我开始交叉参考。我当时想,这简直就像本科生的学期论文一样,你知道吗?哇,几分钟就完成了。
Jason Calacanis: 是的。我的意思是,这太神奇了。我们都有过这样的经历,我把这个扔给人工智能,并没有真的期望它能成功。然后就惊呼:“哇,竟然成功了。”
Sergey Brin: 当你经历了这些时刻,然后回到你作为父亲的日常生活时,你有没有想过,我的孩子们将来会做什么?他们现在的学习方式是否正确?我是否应该彻底改变他们现在所做的一切?你有没有经历过类似的时刻?
Jason Calacanis:说实话,我真的不知道该怎么想这件事。我没有一个奇妙的方法。我的孩子在上高中和初中,人工智能基本上已经超越了他们。很明显,人工智能在某些方面是特别的,比如早期的简单数学,它们会犯一些人类永远不会犯的错误。但总的来说,如果你谈论数学、微积分之类的,它们都非常不错。它们可以赢得数学竞赛、编程竞赛等等,击败一些顶尖的人。
Jason Calacanis:我的儿子将从高二升到高三,我在想他会学到什么,也和他讨论过这个问题,人工智能到底会在哪些领域发展?
Sergey Brin: 有没有什么领域你会告诉你儿子不要接触,或者说暂时别去碰?
Jason Calacanis:我并没有特别规划我的人生要成为一个企业家什么的。我只是喜欢数学和计算机科学。也许我比较幸运,结果发现这对世界有用。孩子们应该去做他们喜欢的事情。我希望他们做的事情有一定的挑战性,能克服各种不同的问题。
David Friedberg: 你认为大学应该像现在这样继续存在吗?
Jason Calacanis:即使在人工智能带来这种挑战之前,大学似乎就已经在经历一场变革了。大家会问,我是否应该更注重职业技能?什么才是真正有用的?但我们已经进入了这样一种局面,人们对大学提出了各种疑问。显然人工智能把这个问题推到了最前沿。
David Friedberg: 作为家长,我经常思考中产阶级和上层阶级的很多教育都围绕着大学展开,如何让孩子进入大学。其实最近我一直在想,也许他们不应该去上大学。
Sergey Brin:我的儿子即将升入高中三年级,他所有的心思都放在想去一所 SEC 的学校,因为那里的文化氛围。两年前,我会很焦虑,会想我是否应该帮他进入这所或那所很棒的学校。但现在我想,这实际上是他能做的最好的事情,在社交上适应良好,心理上能够应对各种失败。
David Friedberg: 享受几年的探索时光吧。Sergey,我方便问一些关于硬件的问题吗?多年前,谷歌拥有波士顿动力公司,也许当时有点超前了,但是这些系统通过视觉信息和感官信息学习,基本上学会如何适应周围环境的方式,正在触发硬件领域非常深刻的学习曲线。现在有几十家初创公司在制造机器人系统。你如何看待机器人和硬件领域?现在是真正开始崛起的时刻吗?
Jason Calacanis:我们已经收购又出售了大约五家机器人公司,波士顿动力就是其中之一。如果我回顾一下,我们制造了硬件,最近内部构建了 Everyday Robotics公司,但后来不得不转型。机器人本身都很酷,但软件还不太成熟。每次我们尝试这样做时都是如此,你必须让它们真正有用。也许有一天可能会不再是这样。
Sergey Brin: 你相信人形机器人吗?还是你觉得这有点太提前了?
Jason Calacanis: 我可能是一个不太喜欢人形机器人的怪人,但这也许是因为我太迟钝了,因为我们收购了两家人形机器人初创公司,后来又把它们卖掉了,所以我有点厌倦了。但原因是,人们想要制造人形机器人,很大程度上是因为这个世界是围绕这种形态设计的。你可以在 YouTube 上训练,可以通过视频训练,可以做各种事情。我个人认为这并没有给予人工智能足够的信任。人工智能可以通过模拟和现实生活很快地学习如何处理不同的情况。不需要和人类完全相同数量的手臂、腿和轮子才能让一切正常运作。所以我可能对此不太乐观。但有很多非常聪明的人正在制造人形机器人,所以我不会考虑。
Chamath Palihapitiya: 成为程序员的道路又是怎样的呢?谷歌现在有一个 20 年历史的代码库了,所以实际上可能会产生很大的影响。那么你在公司内部看到了什么?比如,Kennex 的开发人员,或者说,偶尔能看到一些独角兽项目运转起来。但我们是否会看到所有开发人员的生产力都达到 8、9、10 的水平,还是说这一切都将由计算机完成,我们只需要检查一下。
Jason Calacanis: 如果你喜欢代码,其实我有点不好意思聊这个,我最近在公司内部发生了一场很大的争执,因为我们有一份列出了允许使用的代码工具和不允许使用的代码工具的列表,而 Gemini 被列在了不允许使用的名单上。因为一些非常奇怪的原因,这让我很困惑。
关于 Gemini ,没有人会强制执行这条规则,但是不知出于什么历史原因,确实有一个内部网页上提到Gemini,我们大吵了一架。
Chamath Palihapitiya: 不知道你还记不记得,你是拥有超级投票权的创始人身份,这公司毕竟还是你的。
Jason Calacanis: 不过,他(CEO)非常支持我。我跟他说:“我没法跟那些人打交道,你需要处理一下。” 我非常生气,他们竟然说我们“很奇怪”!。
Chamath Palihapitiya: 想象一下,在一家你并未参与创建的公司里居然还有官僚主义,这感觉一定很奇怪。
Sergey Brin: 不过从另一个角度看,我反而觉得挺令人惊讶的,一些初级的市场营销人员,竟然敢对我们说“走开”。我是认真的,我认为这恰恰是健康企业文化的一个标志。
Jason Calacanis: 总之这事解决了,大家都在用了(Gemini)。他们有被开除吗?
David Friedberg: 被发配去谷歌的西伯利亚办公室了吗?
Jason Calacanis: 没有啦。我们现在正尝试各种可能的 AI,也包括外部的,比如 Cursor 之类的工具,所 有这些都是为了看看什么真的能提高大家的生产力。就我个人而言,使用这些工具绝对提高了我的生产力。
Sergey Brin: 你们训练了许多基础模型吗?展望三年以后,这些模型会开始分化并变得高度专业化吗?比如, 除了通用和推理型的,也许会出现一个专门用于芯片设计的模型,很显然也会有一个专门用于生物药物设计、 蛋白质折叠的模型。未来基础模型的数量会是今天的好几倍,还是差不多,或者介于两者之间?
Jason Calacanis: 这是个好问题。你们的猜测可能和我一样准,但如果让我下注,我认为趋势是越来越趋同。在整个机器学习领域基本都是如此。过去我们有各种不同的模型,比如用于视觉的卷积神经网络等等,有用于文本和语音的循环神经网络等。但这一切基本上 最后都转向了 Transformer,而且越来越趋向于使用单一模型。
当然,我们偶尔也会为特定目标专门化模型。在你有特定目标的时候,这在科研上绝对是很好的迭代方法。你没必要用一个模型来处理所有语言、图像、视频和音频。但是通常在我们做过专门化之后,我们能汲取那些经验,并基本上把那些能力融入一个通用模型。所以专门化带来的好处并没有那么多。你可以 用一个小一点、更专业的模型,也许速度更快、成本更低,但大趋势并不是那样发展的。
Sergey Brin: 你们如何看待开源和闭源的选择?有没有一些重要的理念变化让你们对开源的价值有了不同看法?我们还在等OpenAI,我们现在还没看到,但理论上很快会有结果。
Jason Calacanis:必须实事求是。DeepSeek大概在一月份发布了一个非常强大的模型,确实缩小了与专有模型之间的差距。我们两方面都在探索。所以我们发布了 Gemma,这是我们的开源模型。它们表现很好,是小型而密集的模型,可以很好地在单机上运行。它不如 Gemini 那么强大。不过究竟哪种方式会胜出,现在还很难说,你怎么看?
David Friedberg: 你觉得随着 AI 发展,人机交互会变成什么样子?以前,多亏了你(Sergey Brin)开发的搜 索框,我们是在一个框里输入关键词或者问题,然后点击网络链接来找答案。未来的交互方式会不会是输入一个问题,或者对着 AirPods 说话呢?
David Friedberg: 或者用想的?答案直接通过语音告诉你。
Sergey Brin: 在上周五,Neuralink 的脑机接口获得了“突破性设备”认定,这是让 FDA 批准人人植入芯片迈出的非常重要的一步。
David Friedberg:如果让你总结一下,你认为未来十年里最常见的人机交互模式会是什么样子?是一种带有屏幕的眼镜吗?你很早以前不是尝试过这种东西吗?
Jason Calacanis: 说实话,我当时搞砸了,完全没踩准节奏。
Chamath Palihapitiya: 那是还是先行者,太早了。
Jason Calacanis: 对,就是太早了。有很多事情我希望当初能做得不一样。但当时的技术还没为谷歌眼镜做好准备。不过现在,我觉得这些东西合理多了。但依然存在电池续航的问题,我认为我们和其他公司都需要解决这个问题,但那是一个很酷的形态设计。很多人都在说,奇点大概五年后就会到了,那么未来展望如何?
David Friedberg:我想提一个问题。Larry多年前说过,人类只是进化过程中的垫脚石,你对此有什么评价?比如,你认为这种通用人工智能、超级智能或者真正的硅基智能会不会超越人类能力,而人类只是演化进程中的一块垫脚石呢?
Jason Calacanis:我觉得有时候我们这些书呆子喝多了酒就喜欢说些玄乎其玄的话。我已经喝了两杯酒了,现在有点兴致上头。
David Friedberg: 哈哈,请继续。
Jason Calacanis: 我可能还需要再来点酒。我们还是来聊人体植入吧,咱们开始有点上道了。
我们开始逐渐体验到有些 AI 在某些方面确实做得比我们好得多。而且可以肯定的是,就拿我的数学和编程能力来说,现在最好还是求助 AI。其实这并没有真正困扰到我。你知道,我把它当作一种工具来用,所以我觉得已经习惯了。不过也许将来它们变得更强大时,我会用不同的眼光来看待这一切。
Sergey Brin: 这就涉及到安全方面的问题了。
Jason Calacanis: 也许吧。我想说一句题外话,用 AI 来做管理其实是最容易的事情。
Chamath Palihapitiya:绝对是这样的。
Jason Calacanis: 我在 Gemini 上也试过一些工作场景的聊天应用,有点像 Slack,但那是我们自己的内部版本。我们有一个非常强大的 AI 工具。可惜的是,我们暂时把它撤下了,不过我觉得我们会重新上线,并推广给所有人用。它可以抓取整个聊天空间的内容,然后回答相当复杂的问题。所以当时我对它说:“好的,帮我总结一下刚才讨论的要点。” 它答:“好的,现在给每个人分配一些任务。” 然后我把它的回复粘贴回工作群, 这样一来大家并不会意识到那是 AI 安排的任务。其实从只言片语中也能看出些端倪, 但它干得非常好。然后我又想:“好吧,在这个聊天群里,谁应该被提拔?” 结果它居然挑出了一个年轻的女工程师,她平时在那个群里话不多,特别是其他人都被刷掉了。
事实上并没有那些(传统的人事)流程。然后我意识到 AI 察觉到了什么。我去找了她的经理,结果他竟然说:“是啊,你知道吗,你说得对。她一直工作非常努力,干了这么多事情。” 最后真的就发生了(她得到晋升)。所以我我想过一段时间后,你可能就会习以为常,觉得可以让 AI 来做这些决定。
Sergey Brin: 你认为“无限上下文”有没有用武之地?
Jason Calacanis:百分百有用。如果那些都是需要考虑的东西,那么理论上你只需要一个模型。
Sergey Brin: 谷歌的代码库就完全可以访问无限的上下文,再加上多会话并行运行,这样你可以同时跑 19、20个这种项目,或者让它实时自我进化。
Jason Calacanis:是的,在上下文长度的使用上是没有限制的。而且有很多方法可以让它变得越来越长。
Sergey Brin: 有传言说我们内部有一个代号 Gemini Bill 的版本,它具有无限的上下文系统。我不知道这东西是否有价值。对于 AI 中任何一个超酷的新想法,我们内部可能都有五种类似的尝试。问题是它们表现如何。我们肯定在智能、上下文、速度等各方面都在突破所有边界,你能想到的都有尝试。
Jason Calacanis: 硬件呢?比如你们在构建系统时,会在意有没有畅通的途径使用英伟达吗?还是说你们认为最终这一层会被抽象化,比如出现一个转换器,然后底层是英伟达加上其他十种选择,所以谁管它呢, 我们只管尽可能快地前进就行?
Sergey Brin:对于 Gemini,我们主要用我们自己的 TPU。不过我们也支持英伟达。我们是英伟达芯片的主要采购商之一,我们在 Google Cloud 上为客户提供这些芯片,以及 TPU。在目前这个阶段,为了追求最 好的性能,还没法做到完全抽象化。也许将来某一天 AI 会帮我们把这一层抽象掉。但是你也知道,鉴于在这些模型上需要进行的计算量之巨大,你实际上必须非常仔细地考虑每一件事情的实现方式,以及你采用哪种芯片、内存如何工作、通信如何工作等等——这些其实都是非常重要的因素。也许将来某天 AI 本身会聪明到替我们权衡这些。就今天来说,它还没那么聪明。
Chamath Palihapitiya: 你们在使用界面的时候也是这种体验吗?我发现,即使在我的台式机上,当然在手机上更是这样,我现在一上来就直接用语音对话模式,对它说:“不对,停下。那不是我的问题,我真正的问题是这个。不是这样的。再说一遍,用要点概括。不,我想聚焦在这个点上。” 完全就是这样。现在系统响应非常快。去年这个功能还没法用,太慢了。现在它会立刻停下来回答:“好的。” 然后你就继续下一步。
我可以用语音输入,与此同时我看着文字在屏幕上被输入。我再打开另一个窗口,一边用谷歌搜索,或者向大型语言模型发送二次查询,或者写Google 文档或 Notion 页面,或者手动输入点什么。整个场景 几乎就像《少数派报告》里他戴着手套操作的场景,或者《银翼杀手》里他在公寓里说“向左一点,拉近一点;向右一点,拉近一点”的场景。这一切都和这些语言模型及它们的能力有关——响应时间始终是你关注的重点,对吧。是否存在这样一个响应速度的飞跃,让语音交互现在变得值得用,而以前并非如此?
Jason Calacanis: 一切都在变得越来越好、越来越快。所以更小的模型也变得更强大了。有更快更好的方法来对它们进行推理。
Sergey Brin: 你也可以把它们堆叠起来,比如 Nico 那家公司的 Eleven Labs。它有一个非常出色的文本转语音 (TTS)、语音转文本(STT)的模型栈。还有其他选择,Whisper 在某些方面也非常出色。不过我认为未来你会看到一种模块化的组合:某些特定任务会有某些专门的基础模型。你把它们堆叠在一起,处理好延迟,效果就非常棒。就像你刚才提到的那些语音示例,Whisper 和 Eleven 都非常厉害。
Chamath Palihapitiya: 等到你打开摄像头,它能看到你听到回答时的反应。你“嗯”了一声,在你还没来得及 说“不需要”或者你只是举起手指之前,它就暂停了。“哦,你想要别的结果吗?哦,我明白了,你对这个结 果不满意。”
Jason Calacanis: 有趣的是,我们公司是大型开放式办公室布局。所以上班时间我不太能用语音模式。我通常是在开车时用。
Chamath Palihapitiya: 开车的时候用语音那简直太棒了。
Jason Calacanis: 我感觉在办公室不行……我可以戴着耳机听 AI 给我的输出,但如果我开口对它说话,周围每个人都会听见,很怪异,我只是觉得在社交上会很尴尬。但我应该在车里这么用,我确实会跟车里的 AI 助手对话,但那是语音输入、语音输出。不过老实说,也许这就是该要一间私人办公室的理由了。我应该像你们一样多花点时间独处办公。
David Friedberg: 没错。
Chamath Palihapitiya: 你可以跟你的经理谈谈这事儿。
Jason Calacanis: 他们可能会逮着我不放(笑)。其实我就是喜欢和大家待在一起。
David Friedberg: 我也是,喜欢融入大家、打成一片。不过我确实觉得自己错过了一个 AI 的使用场景。要是大家想试试你的新产品,也许应该更频繁地去尝试一下。
Chamath Palihapitiya: 如果人们想体验你的新产品,有没有一个他们可以访问的网站,或者现在有没有什么特别的邀请码可以用来试?去看看吧。说实话,有一个专门的 Gemini 应用。如果你想用 Gemini,就像以前用谷歌搜索导航一样,直接下载 Gemini 应用。它太棒了。
Sergey Brin:我觉得这真的是目前最好的模型。
Jason Calacanis: 你应该用 2.5 Pro 版本。
David Friedberg: 2.5 Pro,是付费版,对吧?
Jason Calacanis: 是的,你有几次免费查询的机会。但是如果你经常使用的话,就需要每月 20 美元订阅它。
Chamath Palihapitiya: 你有没有想过把它做成免费,然后旁边放一些广告来盈利?
Sergey Brin:可能就要走下坡路了,包括整个硬件板块。
Jason Calacanis: 好吧,目前它(Gemini)是免费的,旁边也没有广告。只是对于顶级模型的使用次数有所限制。我认为我们可能永远都会有一些最顶尖的模型,不可能一开始就无限量地提供给所有人使用。但是, 你知道,再等三个月,就会有下一代模型了。
Chamath Palihapitiya: 就我来说,如果我问了所有这些问题,只是在侧边栏显示一些我可能感兴趣的东西,一个实时更新的列表,那也挺好嘛。
Jason Calacanis: 对于真正高质量的 AI 广告,我不认为我们会把我们最新最好的模型免费给所有人用,因为它们需要耗费大量算力。不过,当我们进入下一代时,你知道,就像我们每次换代一样,新的免费层通常和之前的专业付费层一样好,有时甚至更好。
Chamath Palihapitiya: 感谢 Sergey Brin!谢谢你。
(文:硅星GenAI)