深度|Pytorch华人负责人押注复合AI:行业已经从依赖Scaling Law逐渐转向强调模型的推理能力

图片来源:Latent Space

Z Highlights

  • 我亲眼见证了数据量的爆炸式增长以及行业的巨额投入。当时就很明显,AI是推动这些数据增长背后的关键动力。那是一个非常有趣的时刻——Meta正在完成“移动优先”的过渡,开始迈向“AI 优先”。这个转变的根本原因是移动优先策略提供了前所未有的全方位用户交互,随之产生了大量数据,而这些数据也为AI提供了动力。
  • 单一模型的知识是有限的,因为它的训练数据是有限的,不具备实时信息,也无法获取企业的专有信息。因此,要真正构建一个能够解决实际问题的应用,我们需要一个复合AI系统。复合AI系统的核心,是通过多个跨模态的模型、API(无论是公共还是专有)、存储系统、数据库系统以及知识库等协同工作,共同提供最优答案。
  • 未来的趋势是开源模型和闭源模型之间的性能差距会逐渐缩小,甚至趋于消失。一旦两者在同一水平线上,我们的早期推理优化投资将展现出巨大的优势。通过围绕质量、延迟和成本平衡的长期探索,我们积累了丰富的经验。这些积累让我们有能力发布一个接近高质量闭源模型水准的新产品。

Fireworks从起源到聚焦GenAI

Alessio:大家好,欢迎收听Latent Space。我是Danceable Partners的首席技术官兼合伙人Alessio,这位是我的联合主持人Swyx。
Swyx:今天我们非常荣幸地来到Fireworks的办公室,与Fireworks的CEO,Lin Qiao一起录制节目。
Lin Qiao:您应该欢迎我们才对。
Swyx:是的,欢迎!能在一家初创公司的办公室里录节目确实很特别,不过我想我们的关系也有点特别。
Lin Qiao:没错,我非常高兴能与你们两位一起聊聊这个领域非常有趣的话题。
Swyx:昨天你们刚刚庆祝了公司成立两周年,是吗?
Lin Qiao:是的,这两年真是充满了各种疯狂的经历。我们昨天聚在一起回顾了从硅谷银行挤兑事件,到一次错误操作导致数据意外丢失,再到大规模扩展产能的种种故事。我们一路学习如何作为一个团队,和来自各地的优秀人才协作,推动公司发展。这是一段充满挑战又非常有趣的旅程。
Alessio:在创业初期,你觉得技术上的挑战更大,还是像银行挤兑和团队管理这些非技术性问题更让人头疼?很多优秀的研究人员想创业,但产品构建之外的那些复杂事务才是难点。你觉得在这些经历中,最让你感到意外的是什么?
Lin Qiao:老实说,我一直专注于产品本身。产品发布后,我并没有意识到运营公司会这么复杂。不过可能因为我没有过多思考这些,所以只是一件一件地解决问题,结果还算顺利。我没有纠结于困难,而是专注于解决每一个遇到的挑战,最终问题也都迎刃而解了。
Swyx:我们从Fireworks创立前的故事聊起吧。你在Meta领导PyTorch团队多年,我们之前也和Soumith Chintala聊过,我们都对GenAI的历史非常感兴趣。很多人可能还不知道,在这场GenAI革命爆发之前,Meta就已经深度参与其中了。
Lin Qiao:是的,我之前在Meta是做分布式系统和数据库管理系统的。刚加入的时候,我亲眼见证了数据量的爆炸式增长以及行业的巨额投入。当时就很明显,AI是推动这些数据增长背后的关键动力。那是一个非常有趣的时刻——Meta正在完成“移动优先”的过渡,开始迈向“AI 优先”。这个转变的根本原因是移动优先策略提供了前所未有的全方位用户交互,随之产生了大量数据,而这些数据也为AI提供了动力。
这不仅是Meta的变化,而是整个行业都在经历的转型。当时我就在思考,我们的AI技术栈发展到底处于什么进程?我希望能够深入参与这个领域,为AI发展贡献力量。当时,AI框架虽然很多,但大多数都偏向生产化,例如通过特定的方式定义神经网络结构,以推动模型的部署。而PyTorch则完全不同。它是从研究者的角度出发,解决他们使用其他框架时遇到的各种痛点,这就是PyTorch的起源。
PyTorch起初并没有考虑生产需求,但随着采用率越来越高,我们意识到研究和生产之间的距离其实并不远。在学术界和工业界,研究创新会迅速通过开源传播,这些成果推动了下游的生产化。Meta将PyTorch作为推动大规模开源采用的战略是明智的,因为Meta内部广泛使用PyTorch,这形成了一个飞轮效应,也是PyTorch背后的策略。
当我接手PyTorch时,Meta已经将其定位为兼顾研究和生产的框架。此前没有人这样做过,所以我们必须重新思考如何架构PyTorch来支持生产工作负载,确保稳定性、可靠性和低延迟。这些在以前从未被考虑过,而现在它们成为了关注点。我们必须调整其设计,使其同时适用于研究和生产,这花费了我们五年时间。
Meta内部有非常多的AI应用场景,从推荐系统到内容审核,从翻译到目标检测,这些都依赖PyTorch。通过开源,我们和很多公司合作,也看到了行业正在向AI优先的方向转型。这种转型虽然与Meta的需求不同,但我们希望通过我们拥有的技术的力量推动整个行业前进。
Swyx:当你和我聊起Fireworks的起源时,它最初被设想为一个PyTorch平台,后来变得更加专注于生成式AI。这样说对吗?
Lin Qiao:没错。最初的想法是构建一个专门支持PyTorch的云平台,因为当时虽然有PyTorch框架,但缺少相应的SaaS平台。
Swyx:即使在2022年,这也很有趣。
Lin Qiao:2022年的时候,这样的产品几乎没有,即使有一些,也不是主流。当时TensorFlow在生产环境中还占据主导地位,而PyTorch的增长才刚刚开始,但当时还没有专门为PyTorch设计的SaaS平台。同时,我们也是一群非常务实的人。我们希望从一开始就与客户紧密合作,了解他们的用例、痛点以及我们为他们带来的价值。
因此,我们决定采取不同的方法,首先选择构建一个垂直化的平台而不是构建一个横向的PyTorch云平台。然后我们与许多客户进行了交流。有趣的是,2022年底OpenAI发布了ChatGPT,这让我们意识到GenAI将成为未来的重点方向所有GenAI的模型都是基于PyTorch构建的,这让我们更加坚定了这个方向。同时,GenAI天生适合内容生成,能够推动面向消费者和开发者的应用创新。这是一个必然的趋势,而我们正好赶上了起点。
我们的预测是,对于这些应用场景,推理的需求远大于训练,因为推理的规模和用户数量相关,而训练更多和研究人员数量挂钩。所以,我们选择专注于推理。去年8月,我们推出了第一个产品,一个兼容OpenAI API 的分布式推理引擎,支持多种模型,从LM开始,然后添加了许多其他模型。
现在,我们已经发展成为一个拥有多条产品线的完整平台。我们很乐意深入探讨我们所提供的产品。但这是过去两年中非常有趣的一段旅程。
Alessio:所以,从PyTorch到GenAI,再到现在更复杂的产品矩阵,你们的战略是如何一步步调整的?也许大多数使用的人甚至根本不真正了解PyTorch,也许他们只是去使用模型。
Lin Qiao:我们的产品决策都是基于理想客户群体的需求。我想在这里坦率地说,通用技术是颠覆性的,与以往的AI完全不同,这确实是一次质的飞跃。在GenAI出现之前,想要投资AI的公司只能从头开始训练模型,因为没有其他选择,也没有可用的基础模型。这就意味着,他们需要组建一个能够处理海量数据的团队,因为从零开始训练需要准备大量的数据。同时,他们还需要大量的GPU进行训练,并负责GPU的管理。
因此,这变成了一个非常复杂的项目,需要耗费大量时间和资金。实际上,能够负担得起这种成本的公司少之又少。然而,GenAI完全改变了这一切。它基于基础模型,开发者不再需要从头训练模型。这样一来,AI技术的门槛被大幅降低。现在,应用开发者甚至是普通的产品经理,只需直接与GenAI模型交互,就可以快速实现他们的需求。
我们的目标是让所有应用开发者和产品工程师都能轻松接触并使用AI技术。在这种新技术背景下,再让他们参与到模型训练中已经没有意义了。此时,构建一个简单易用的API才是最重要的。我们在一开始就决定与OpenAI的API保持兼容,这样开发者可以快速采用这项新技术,而我们则负责处理模型背后的所有复杂问题。
Swyx:是的,OpenAI确实已经成为行业的标准。在今天,我们录制节目时,Gemini也刚刚宣布他们推出了与OpenAI兼容的API。这种标准化确实很有意思,因为它能让所有人更容易参与进来并整合资源。
Lin Qiao:这很有趣,我们与Meta有着紧密的合作关系。Meta是我们的合作伙伴之一,他们非常慷慨地开源了许多功能强大的模型,并表示未来还会有更多模型加入。同时,他们还推出了LlamaStack,这是一个基于Llama模型的标准化上层堆栈。他们不仅仅是提供模型,还希望围绕这个堆栈构建一个社区,并推动新的行业标准形成。
现在整个行业有趣的动态是,OpenAI在推动自己的标准化进程,因为他们已经创造了行业的“顶部漏斗”,而Llama因为是最常用的开源模型,正在推动另一个方向的标准化。因此,这段时间的行业发展是非常值得关注的。
Swyx:我对LlamaStack持观望态度,而你似乎更乐观。本质上,它有点像Meta版本的HuggingFace、TensorRT,或者其他任何开源框架。但对我来说,Meta开源了Llama模型并不意味着LlamaStack的其他部分也会被广泛采用。我也不太明白为什么需要采用这个堆栈。所以不确定你是否同意我的看法。
Lin Qiao:我认为目前还处于非常早期的阶段。这也是为什么我会和Meta团队紧密合作,并不断向他们提供反馈。给Meta团队提供真实的用户反馈非常重要,这样他们才能基于这些反馈不断改进模型和更高层次的内容。我相信LlamaStack是否成功,很大程度上取决于社区的接受程度。Meta团队也明确表示,他们希望与更广泛的社区合作。我想,这将是LlamaStack发展的关键所在。
复合AI与Fireworks的产品创新
Swyx:在你完成B轮融资后,迅速获得了Benchmark和Sequoia的投资。我记得至少在B轮融资公告时,你们已经开始大力押注“复合AI”。虽然这不是我们节目中经常讨论的术语,但我发现它在Databricks和Berkeley等圈子中得到了广泛认同。你对复合AI怎么看?为什么它会引起大家的共鸣?
Lin Qiao:好的。我先解释一下为什么我们会进入这个领域。
Swyx:因为在B轮融资之前,这个概念并不存在,而现在它却已经成了你们官网首页的核心内容。
Lin Qiao:确实如此。从我们首次推出公共平台时,我们的产品线非常单一,只有一个分布式推理引擎。为了实现高效推理,我们做了很多创新,比如定制CUDA内核和底层内核,让它能够在不同类型的硬件上运行。我们还开发了分布式解耦执行、推理执行以及各种缓存机制。可以说,这是一个专注于速度和成本效益的推理平台。而且因为我们自己编写了PyTorch代码,所以为这一平台量身定制了专门的PyTorch版本和自定义内核。
但随着我们与更多客户合作,我们意识到分布式推理引擎作为“一刀切”的解决方案,并不能完美满足所有客户需求。尽管一个统一的推理端点看起来很理想,但现实是,客户的用例形态和规模各不相同。更重要的是,我们发现客户推理工作负载中的数据分布往往与模型训练数据的分布并不一致。
这种不一致很正常,因为研究人员在准备训练数据时需要假设哪些数据是重要的,而哪些可以忽略。但正因为如此,推理工作中其实还有很大的优化空间,比如提升质量、降低延迟、节约成本等等。于是,我们决定大力投资于一个定制化优化引擎。最终,这个引擎以FireOptimizer的形式推出。它的核心功能是帮助用户在“质量、延迟和成本”这三个维度上找到最佳平衡点。
这个优化引擎的使用非常简单:客户将推理工作负载输入到引擎中,附上目标函数,我们就会输出定制化的推理部署配置和模型设置。通过这种方式,我们实现了一个自动化的定制化流程。这条产品线与原本“一刀切”的理念完全不同,在此基础上,我们提供了数百种,从文本到大型的最先进的模型。
随着我们与客户的合作深入,我们注意到另一个趋势:音频和文本之间的界限正在模糊。许多客户从文本助手起步,接着就希望添加语音输入和输出。因此,我们新增了支持音频的功能,包括转录、翻译、语音合成、文本与音频对齐等。与此同时,视觉和文本的结合也变得越来越重要。很多信息并非以纯文本形式存在,而是嵌套在多媒体文件中,比如图像、PDF、截图等。为了提取这些信息,我们需要先通过视觉模型解析数据,再用语言模型进行处理并输出结果。
基于这些需求,我们支持了多种视觉模型,用于处理不同类型的输入源和信息提取任务。我们还开发了新的API端点,支持客户上传多种格式的多媒体内容,并将其转化为结构化信息,最终通过语言模型进行处理。除此之外,我们还扩展了嵌入支持,优化语义搜索、RAG等任务。同时,我们不断丰富模型种类,比如支持从文本到图像的生成、图像到图像的转换,以及文本到视频的生成。我们的产品已经涵盖了从语言到视觉、从推理到生成的全方位模型目录,而这些都建立在FireOptimizer和分布式推理引擎的基础上。
但随着更多客户在实际业务中应用GenAI,我们发现仅仅依赖单一模型是不够的。原因很简单,模型本身会“产生幻觉”。很多客户刚开始接触GenAI时,都以为它可以解决所有问题,但事实并非如此。模型本质上是概率性的,而非确定性的。它的设计初衷是始终提供一个答案,但这些答案有时可能是错误的。在某些场景下,比如创意写作,这种特性是有价值的,但在其他场景中,错误信息是完全不可接受的。
此外,不同模型擅长的领域各不相同。为了更好地解决复杂问题,我们需要将任务拆解为多个小任务,并交给擅长这些任务的专家模型处理。同时,单一模型的知识是有限的,因为它的训练数据是有限的,不具备实时信息,也无法获取企业的专有信息。因此,要真正构建一个能够解决实际问题的应用,我们需要一个复合AI系统。复合AI系统的核心,是通过多个跨模态的模型、API(无论是公共还是专有)、存储系统、数据库系统以及知识库等协同工作,共同提供最优答案。
Swyx:您打算提供矢量数据库吗?
Lin Qiao:实际上,我们与几家大型矢量数据库提供商建立了密切的合作伙伴关系,他们都各有优势。比如MongoDB,这是公开信息,它是我们的投资者之一。我们已经与他们深入合作了一段时间。
Alessio:当你提到分布式推理引擎时,具体指的是什么?因为从你的描述来看,感觉Fireworks平台集成了很多与质量优化相关的决策。那么,“分布式”具体是指你们在多个集群上使用GPU进行推理,还是说模型被分散到多个地方?
Lin Qiao:首先,我们确实是在多个GPU上运行的,但我们的分布方式比较独特。我们并不是简单地将整个模型均匀分布在多个GPU上,而是根据不同部分的瓶颈,将模型切割成小块,并进行差异化扩展。我们还支持跨地域分布,目前已经覆盖北美、EMEA和亚洲区域。这种布局是为了满足应用的地域亲和性需求,因为延迟对很多应用来说至关重要。
此外,我们在进行全球负载均衡时,充分考虑了不同硬件的特点和负载差异。比如,不同供应商的硬件适合处理不同类型的工作负载,有些适合长上下文,有些适合短上下文或长生成任务。我们会根据这些特点,将工作负载分布到合适的硬件上,从而实现全栈优化。
Swyx:Ray的多模态图像生成能力将在YouTube上展示,我认为它基本上是OpenAI技术的一个开源版本。如果Ray能够实现文本到视频的功能,它甚至可能成为OpenAI的超集,因为目前OpenAI还没有类似于Sora的产品。
Lin Qiao:开源社区的创新能力确实非常惊人,涌现了许多优秀的视频和音频生成项目。比如跨领域的合作和创新,让我们得以基于这些开源成果进行构建,这也是我们相较于闭源公司的一大优势。
Swyx:我想重新强调一下Fireworks的价值主张,这样人们在将你们与RunPod、Lambda或其他类似的原始GPU服务商进行比较时,能够更好地理解。你们不仅提供了开发者友好的体验层,还让这些服务可以轻松扩展,甚至作为无服务器端点使用。而且,对于某些模型,Fireworks还有自定义内核的支持。
Lin Qiao:实际上,几乎所有的模型我们都配备了自定义内核。
Swyx:比如你们的FireAttention技术。虽然我不记得具体的性能数据,但显然它在并发性能上比vLLM要好得多。
Lin Qiao:FireAttention主要针对语言模型,但对于其他模态,我们同样提供了定制化内核支持。
Swyx:目前一个挑战是让用户理解Fireworks和其他开源模型提供商的核心价值。Fireworks的定位是为所有客户提供极佳的使用体验,但有些人可能会认为,你们依赖开源模型构建产品,其他人也可以做类似的事情。
Lin Qiao:我们确实基于开源模型构建产品,但我们的核心优势在于从应用开发者和产品工程师的视角重新定义价值。开发者希望创造全新的用户体验,而整个行业也在重新思考如何设计产品。例如,传统的PowerPoint已经形成了一种固定的思维框架:人们总是需要在一页接一页的格式中讲述故事,还要同时兼顾设计和内容表达。但实际上,最重要的是故事本身。那么,为什么不创造一个完全不受固定格式限制的空间?这正是许多创新型创始人正在尝试的方向,他们面临的挑战是什么?我们可以从这些痛点出发。
首先,大多数基于GenAI的产品面向消费者和个人开发者,因此需要非常流畅的交互体验。这已经是用户习惯的产品体验模式,人们希望获得快速响应,否则他们根本不会愿意等待。因此,低延迟是必须的。其次,面向消费者和开发者的产品通常需要快速扩展到大规模用户群体。但如果在小规模测试阶段无法控制成本,当规模扩展时,企业很可能会陷入亏损甚至破产的境地。
因此,低延迟和低成本对于这些新型应用和产品的生存至关重要。这也是我们设计分布式推理引擎和FireOptimizer的核心理念之一。你可以把FireOptimizer看作一个反馈循环。客户提供的推理工作负载越多,我们就能通过引擎帮助他们进一步优化质量、降低延迟和成本,这个过程是自动化的,且会不断改进。
我们自动化了这个过程,我们希望让应用开发者和产品工程师专注于产品创新,而不是耗费精力去解决底层的复杂问题。至于复合AI系统,我们也在帮助开发者应对模型生态的复杂性。毕竟,现在几乎每周都会有一个新模型出现,开发者需要处理的复杂度越来越高。
Swyx:腾讯本周推出一个巨大的模型。
Lin Qiao:我看到了。
Swyx:是的,大概5000亿美元。
Lin Qiao:开发者面临的核心问题是应该继续追逐新模型,还是直接放弃?该选择哪个模型解决具体的子问题?如何拆解问题并匹配适合的模型?这些问题让他们感到无从下手。这里涉及两种完全不同的设计思路:命令式系统和声明式系统。命令式系统要求开发者明确如何操作,提供具体的工具和流程指导,比如设计复杂的ETL管道、构建DAG系统,甚至需要设计详细的故障恢复策略。而声明式系统则关注目标本身,开发者只需告诉系统“想要什么”,而不需要知道“如何实现”。
在数据世界中,数据库管理系统就是一个典型的声明式系统。开发者使用SQL语句,可以清晰表达从数据库中提取什么样的数据结果,而无需考虑底层细节,比如哪个节点运行、如何分配计算资源、如何选择索引等。数据库系统会自动生成最佳执行计划并完成任务。这种方式极大降低了使用门槛,开发者只需理解SQL的语义即可。
相比之下,命令式系统则涉及很多底层细节,比如设计数据流的ETL管道、编写恢复逻辑等。我们在生态系统中看到了各种系统走不同的道路,我认为两者都有价值,他们无法相互取代。但我们更倾向于声明式系统的哲学,因为从应用开发者和产品工程师的视角来看,声明式系统更易于集成和使用。
Swyx:这也是PyTorch能成功的原因之一,它的易用性非常高。
Lin Qiao:没错,我们专注于提升系统的易用性,让系统承担更多复杂性和挑战。基于这一理念,我们正在将声明式系统的设计思路扩展到现有架构中。此外,我们即将发布一个全新的声明式系统,其中包含一个高质量模型。这个模型受到了OpenAI的公告启发,相信大家很快会看到它的发布。
Alessio:这个模型是由您训练的吗?
Lin Qiao:是的。
Alessio:这是你们训练的第一个模型吗?
Lin Qiao:这不是第一个。我们实际上已经训练了一个名为FireFunction的模型,这是一个函数调用模型,是我们进入复合AI系统的第一步。函数调用模型能够将请求分派到多个API。我们为模型预训练了一套API集合,它已经学会如何调用这些API。同时,用户还可以通过配置添加额外的API,模型会根据需要进行分派。
我们目前已经发布了三个版本的FireFunction模型,最新版本的性能非常出色。但我们并未止步于此。即将发布的新模型将进一步简化流程,用户甚至不需要直接使用函数调用模型。它将解决许多问题,接近非常高的OpenAI水准。
Swyx:你们有没有基准测试数据?
Lin Qiao:当然有,我们计划在下周正式发布相关基准测试数据。目前,我们已经将模型放到了LMSYS平台上,社区内正在猜测这是否是下一个Gemini模型。这引发了不少讨论,我们也在关注Reddit上的相关话题。
Swyx:我还想进一步了解。比如,当OpenAI发布o1模型时,许多人好奇它是单一模型还是一个模型链的组合。OpenAI的Noam团队认为,他们在强化学习和思维链方面的工作无法被简单调用一堆开源模型来复制。你们怎么看?你们在强化学习方面是否也有类似的投入,还是采取了不同的方法?
Lin Qiao:OpenAI采取了一种非常具体的研发方法,他们团队的水平非常高,是领域内的专家。不过,我并不认为只有一种方法可以实现类似的目标。我们和他们的研究方向一致,比如从Scaling Law转向Inference Scaling Law,但解决问题的路径完全不同。我们有幸能够站在巨人的肩膀上工作,而不需要完全从零开始训练模型。这也得益于当前可用的开源模型不断进步。
未来的趋势是开源模型和闭源模型之间的性能差距会逐渐缩小,甚至趋于消失。一旦两者在同一水平线上,我们的早期推理优化投资将展现出巨大的优势。通过围绕质量、延迟和成本平衡的长期探索,我们积累了丰富的经验。这些积累让我们有能力发布一个接近高质量闭源模型水准的新产品。
竞争、定价与社区参与
Alessio:您认为开源模型追赶闭源模型的时间会有多长?大家普遍同意,开源模型最终会赶上闭源模型。以Llama系列为例,3.1、3.2,再到刚推出的Llama 3.1-405B,差距已经逐渐缩小。但OpenAI发布o1后,似乎又拉开了距离。显然,你说的你的模型将会有…
Lin Qiao:我们正在努力缩小这个差距。
Alessio:那么,您认为未来会是几个月内完成追赶吗?
Lin Qiao:虽然有公开的基准测试,但现实中开源模型在某些特定领域已经与闭源模型持平,甚至超越。例如,在编程相关任务中,开源模型的表现非常优秀。而在函数调用领域,我们的FireFunction模型也表现得非常好。
所以这取决于你的目标是构建一个通用型的“一刀切”模型,还是专注于某些领域。专门化模型在特定领域可能达到非常高的水平,甚至优于通用型的闭源模型。随着领域专家模型的不断涌现,我们预测未来会有越来越多这样的专家模型表现优异。
Swyx:这让我想到复合AI和通用AI的核心争论。我还没有完全形成立场,因为这基本上是在与苦涩的教训做斗争。
Lin Qiao:人类社会本质上就是专门化的。有人专精某一领域并做到极致,这是我们自古以来的发展模式。我认为AI模型的演变也会类似,专门化会成为主流趋势。
Swyx:短期内,领域专家模型确实可能有优势。但从长期来看,如果有人能在更多的推理任务上投入十倍的计算力、训练十倍的数据,广义智能将最终胜出。这种Scaling Law正是GPT系列模型背后的核心理念。
Lin Qiao:Scaling Law确实表明,通过增加训练数据量和计算能力,模型性能会显著提升。但在数据量方面,我们可能已经接近极限了,因为新增数据多数是合成数据。如果有一个非常优秀的大模型,它可以生成高质量的合成数据,这或许能进一步提升性能。然而,我认为行业已经从依赖Scaling Law12,逐渐转向强调模型的推理能力。
Swyx:即Inference Scaling Law。
Lin Qiao:我相信这就是未来的方向,而且进行推理也是我们真正擅长的地方。
Swyx:你会分享模型的推理机制吗?
Lin Qiao:这是个很好的问题,目前我们还在讨论中。
Swyx:以SWE-Bench为例,如果希望参与排名,必须提交模型的推理细节。然而,许多团队出于知识产权保护的考虑,选择不公开相关信息。像Cosign在SWE-Bench表现优秀,但没有提交推理细节,因此未被列入排名。同样,我们也看不到o1的推理细节。那么,您的模型会开源吗,还是作为一个端点供用户访问?你们的模型会作为端点提供,使用类似于OpenAI的定价方式吗?
Lin Qiao:一切进展得非常快,目前我们还在规划中。
Swyx:关于您提到的新模型,您还有什么可以分享的吗?例如内部测试结果或社区反馈?
Lin Qiao:我很兴奋地看到社区对模型使用方式的讨论。Reddit上已经有关于它的深度讨论,尤其是模型能够正确回答复杂数学问题的能力让人印象深刻。内部测试中,我们还让模型尝试生成关于AGI的思考过程,结果是一个非常复杂的DAG,非常有趣。但我更好奇的是社区的使用场景。他们会尝试哪些应用?哪些效果好?哪些让人惊喜?还有哪些我们需要改进的地方?这些反馈对我们非常重要。
Swyx:作为o1-preview和o1-mini的生产用户,我感受到它们的质量提升非常明显。这种改进幅度让之前的技术显得过时。不过,目前的用户反馈中有一个普遍需求:预算控制。在o1版本中,系统会自主决定思考的预算,但有时用户希望指定一个预算,比如可能是两分钟解决问题,或者限定在某个成本范围内。
Lin Qiao:这个需求确实合理。虽然不会在模型的初始版本中实现,但未来我们一定会支持这一功能。
Swyx:非常感谢您分享的这些内容。我必须坦白,当我第一次见到您时,我有些怀疑,因为这是一个竞争非常激烈的领域,还有像Replicate这样的玩家。我当时不确定你们为何能够胜出。但我的观点改变了,因为我看到你们以不大的团队交付了非常有影响力的产品。
Lin Qiao:是的,我们团队目前有40人。
Swxy:你们正在与OpenAI等巨头竞争,成功的秘密是什么?
Lin Qiao:团队是关键。我们的团队文化非常统一,因为大部分成员都来自Meta,还有一些来自创业公司。我们非常注重结果,同时高度关注客户反馈。我们不是为了采用新技术而采用,而是专注于为客户创造真正的商业价值。为了满足客户需求,我们会在深夜甚至周末进行模型部署和容量调整。这样的高效执行力源于我们团队的高素质。顺便提一下,

(文:Z Potentials)

欢迎分享

《深度|Pytorch华人负责人押注复合AI:行业已经从依赖Scaling Law逐渐转向强调模型的推理能力》有2条评论

发表评论