去年 4 月,Jennifer 升任为 a16z 第 27 位普通合伙人,并在 a16z 新成立的 12.5 亿美元 AI 基础设施基金扮演关键角色。
Jennifer Li:我的一个重要观点是,在设备端运行的小型人工智能生成式模型明年将会变得更受欢迎。
如果你经常使用Uber、Instacart、Lyft、Airbnb等应用程序,我敢肯定,已经有很多机器学习模型在你的设备上运行了。
我这里更多指的是那些生成图像、语音、视频的生成式模型,它们将像其他传统机器学习模型一样,在设备端以及你的应用程序中变得更加普遍。
主持人:我们在过去几年看到的那些模型需要大量的算力,那么,我们如何将其与智能手机所能提供的算力相匹配呢?而且这些模型是否会变得更小,或者说这一切是如何协同运作的呢?
Jennifer Li:首先,永远不要低估智能手机的算力,得益于摩尔定律,如今智能手机的算力可能已经堪比10年或20年前的计算机,像20亿或80亿参数规模的模型,其所需算力足以在设备端运行,并且已经能够生成和创造出非常稳健的体验,无论是文本、图像还是音频方面。
而且,其中一些模型,如果是扩散模型的话,它们本质上比大型文本模型更小,但功能却很强大。
另外,现在还开发出了一套新的工具和技术——模型蒸馏。如果你有一个非常强大的大型模型,可以将其蒸馏为一个参数规模更小的模型,同时还能保留该大型模型所具备的诸多能力。
所以,在我看来,无论是在基础设施端还是在设备算力端,这都是一个绝佳的配置,对于小型模型而言将变得更受欢迎。
主持人:我听到了几点内容,我听到说智能手机正变得更加强大,而且部分模型也正变得更加高效,但这就引出了一个问题,那就是为什么要在设备端运行这些模型呢?
Jennifer Li:这样做对于消费者以及日常用户来说,有哪些优势和劣势?我们已经习惯了实时、高性能、流畅且即时响应的应用程序。
如果你在和聊天机器人对话,或者在和对话式人工智能交流,又或者在Instagram或TikTok上给视频和图片添加滤镜,你肯定不想等上好几秒才能加载出新的滤镜,也不想等好几秒才能收到聊天机器人的回复。
这些都是实实在在的应用场景,这样做确实能够提升用户体验,让用户感到满意。
同时,这也是对算力的一种优化。有很多更复杂的问题或者视频处理任务需要借助云端来完成,但大多数情况下,如果只是改变用户体验、改善事物的视觉和音效效果,那就没必要通过网络经过多个服务器进行处理了。
所以,无论是从用户体验还是效率的角度来看,将部分模型在设备端运行都是一种更好的设计。
最后一点就是隐私问题了。
用户很在意隐私,如果我的会议记录是在本地进行的,那我可能会更频繁地使用这个会议记录应用,而不是在知道部分数据会被发送到服务器并且会被处理我的很多私人对话的情况下使用它。
当然,这还是要取决于具体的应用场景,不过我认为这确实有助于提高应用的使用率。
主持人:确实如此,或许这会开启一些新的应用程序。
说到这一点,你已经提到了一些应用场景,那么我们可能会在哪些方面看到相关应用出现呢?或者说,我们现在已经在哪些方面看到了设备端模型相关应用的出现呢?
Jennifer Li:首先想到的就是实时语音助手,这是一个非常热门的话题,也是我非常感兴趣的领域。
我们投资了一家名为ElevenLabs的公司,并且和他们密切合作,他们投入了大量精力的一个领域就是,不仅要打造出逼真的合成语音,还要能够流畅地与终端用户进行对话,降低延迟,并且思考想要与AI助手、客服支持人员或者任何一种生活导师进行何种类型的实时交流。
我认为我们确实需要以一种更加完善的方式去思考交互模式和延迟问题。所以,如果在接下来的12到18个月内,部分推理工作负载能够在本地运行,我是不会感到惊讶的。
主持人:当我们思考这些不同的模型如何与智能手机的其他部件(比如摄像头)相互作用时,你觉得这是否也会改变用户的行为以及我们所能做的事情呢?
Jennifer Li:答案是肯定的。
你可以想象一下增强现实(AR)体验,如果我将摄像头对准这个房间,并且想要看到新的墙面、壁纸和家具,这个技术上已经可以实现了。我们实际上可以利用生成式人工智能、摄像头以及交互提示来创造新的体验,让我们与现实物质生活的互动方式焕然一新。
我认为很多设备端模型在如何与3D世界、物质世界互动方面将发挥重要作用,不仅仅是把摄像头用于拍摄,还可以将其当作投影仪来使用。
主持人:那我们再来谈谈经济方面的问题吧。如今很多现有的模型都依赖于推理,并将推理结果发送到云端,这是需要花钱的。
如果突然之间这些模型都在设备(比如智能手机现有的算力)上运行了,经济情况会发生变化吗?经济模式是否真的会改变,或者我们能否在这个新环境下想出新的盈利方式呢?
Jennifer Li:这是一个很棒的问题,说实话,我也不太确定答案。
因为即便是对于大型模型来说,随着优化工作的开展,推理成本已经大幅下降了。如果是算力需求很高的计算任务,比如使用电脑或手机进行的计算,我认为还是会有经济效益的,但我觉得这并不会大幅降低这些应用的基础设施成本。
不过,在构建和组织整个工具链方面,它确实会改变开发者效率和迭代速度方面的经济情况。
在云端部署应用有其优缺点,在云端可以更持续地进行发布,而在设备端则有其自身的挑战,因为你必须跟随应用和硬件的更新来进行调整。
所以,我认为在团队以混合模式(即同时在云端和设备端部署模型)推出模型时,这方面的经济情况会产生影响。所以我建议那些正在考虑利用这项技术的团队,要更全面地去考虑这些问题。
主持人:这非常有意思,当我们思考这样一个世界时,你觉得有哪些参与者会从中受益呢?
从某种意义上来说,我觉得手机制造商可能会受益,我也能想象到可穿戴设备制造商能够推出各种各样的新应用,比如想想苹果手表、Fitbit、Whoop这些产品。
英伟达会从中受益吗?你觉得究竟谁会从模型变得更高效以及设备端模型兴起这个趋势中受益呢?
Jennifer Li:目前,我看到硬件开发方面,无论是芯片制造商还是设备制造商,表现出了更多的兴趣和热情,我觉得模型开发者对此也很有兴趣,他们希望能在不同的设备和环境中推广模型的应用。
但我认为,从长远来看,这可能会影响整个供应链。
主持人:2025年,你觉得这些趋势会如何发展呢?有没有什么特别的方面是你比较关注的呢?
Jennifer Li:这听起来可能更像是一个消费者或者投资者的视角,我一直以来更像是一个专注于基础设施投资的人。
但我对混合现实(MR)领域非常兴奋,在这个领域,生成式模型(包括3D模型、视频模型等)真的会让我们通过摄像头镜头、麦克风所感知到的现实世界变得更具创造性,哪怕是坐在家里或者外出乘车的时候,都能有不一样的体验。
这就是我非常期待的那种体验。我觉得基础模型技术已经相当成熟了,基础设施也已准备就绪,所以我个人对这种新的消费体验感到非常兴奋。
Source:https://www.youtube.com/watch?v=N0Bdbpy03yk
(文:Founder Park)