Letta:AI代理技术栈市场地图

根据硅谷科技评论数据库(svtr.ai),在AI代理领域全球有50多家高潜初创企业获得知名机构投资(见附录),其中Letta是最近备受关注的一家AI代理框架企业。

Letta,2024年成立于美国加州伯克利,帮助人工智能模型记住用户和对话。完成1000万美元融资,投资方为Felicis的Astasia Myers、Google的Jeff Dean、Hugging Face的Clem Delangue、Runway的Cristóbal Valenzuela、Anyscale的Robert Nishihara等。本轮估值为7000万美元,累计融资1000万美元。

Letta是伯克利天空计算实验室(Sky Lab)的孵化项目,也是流行的 MemGPT 开源项目的商业实体。伯克利的 Sky 计算实验室由著名教授、Databricks 联合创始人 Ion Stoica 领导,是 RISELab 和 AMPLab 的后代,这两个实验室催生了 Anyscale、Databricks 和 SiFive 等公司,这里也诞生了许多流行的开源大语言模型( LLM )项目,例如Gorilla LLM 、vLLM和LLM结构化语言SGLang。

Letta联合创始人兼CEO Charles Packer,曾是Berkeley人工智能研究院(BAIR)研究生研究员,曾是加州大学伯克利分校研究人员,也曾在加州大学圣地亚哥分校担任CSE课程的辅导员和系统管理员。他还曾是华盛顿州立大学NSF REU研究员。Charles在加州大学伯克利分校获得计算机科学博士学位,并在加州大学圣地亚哥分校获得计算机科学学士学位,毕业时获得最高荣誉。



最近Latta公布2024年最新的“代理栈”(Agent Stack),将 AI 代理堆栈分为三个关键层:代理托管/服务(agent hosting/serving)、代理框架(agent frameworks)以及LLM模型和存储(LLM models & storage)。


这套代理栈来源于其过去一年多在开源AI领域的实践,以及过去7年以上在AI研究中的积累。它不仅试图更真实地反映开发者的实际需求与行为,也开发者群体提供一个实用的参考框架。


难能可贵的是,Letta推出的代理栈与一般AI代理研究报告不一样,并不仅仅是对现有工具的整理,更关注它们在实际应用中的价值与协作方式。

一、从大语言模型(LLMs)到LLM代理(LLM Agents)


在2022年和2023年,我们见证了LLM框架与SDK的崛起,例如LangChain(2022年10月发布)和LlamaIndex(2022年11月发布)。与此同时,也有多种“标准”平台被广泛采用,用于通过API消费LLM或进行自部署的LLM推理,例如vLLM和Ollama。


进入2024年,AI“代理”(Agents)以及更广义上的复合系统(Compound Systems)成为了行业关注的核心。这种转变令人瞩目。尽管“代理”一词在人工智能领域已有数十年的历史(尤其是在强化学习领域),但在后ChatGPT时代,它的定义变得更加宽泛。如今,“代理”通常指大语言模型(LLMs)在自主环境中执行任务,具体表现为生成动作(如工具调用)并结合工具的使用进行自动化运行。


从LLMs向代理系统的转变,意味着需要整合工具使用、自主执行和记忆管理这三大关键能力。实现这一转变的需求催生了全新的代理技术栈。这套栈不仅满足了对复杂操作的需求,也推动了AI代理生态系统的快速发展。


这种进化表明,AI技术正在从单一的语言生成能力,向更复杂、更动态、更智能的任务执行框架迈进,为开发者和用户带来了前所未有的可能性。


二、AI代理栈(Agent Stack)有和独特之处?


与基础的LLM聊天机器人相比,AI代理的开发在工程上复杂得多。原因在于代理面临以下两大核心挑战:


  • 状态管理(state management)

    1. 需要保留消息/事件的历史记录,支持上下文的持久性。

    2. 存储长期记忆,以便在未来的任务中参考。

    3. 在代理循环中执行多次LLM调用,保持逻辑连贯性和目标驱动性。

  • 工具执行(tool execution)

    1. 安全地执行由LLM生成的动作(如调用工具、API请求等)。

    2. 返回执行结果并将其融入到后续任务中,确保可靠性和高效性。

正因为如此,AI代理栈的结构与传统的LLM栈有着显著差异。下文是Charles Packer对当前AI代理栈的关键组成部分的逐层解析:


1、模型服务(Model Serving)


AI代理的核心是大语言模型(LLM。为了让代理能够使用这些模型,模型需要通过推理引擎提供服务,通常是通过付费API服务运行。主流模型服务选项包括以下4大类:


1)基于封闭API的推理服务


OpenAIAnthropic 是目前封闭式API推理服务的领先提供商,它们提供高性能的专属前沿模型。这些服务通常适合需要高质量输出和强大支持的商业级应用。

2)开放权重模型的API服务


Together.AIFireworksGroq 提供基于开放权重模型(例如Llama 3)的付费API服务。这些平台的优势在于结合了开放模型的灵活性和付费服务的便利性。


3)本地化模型推理服务(Local Model Inference)


对于需要在本地部署模型的用户,以下解决方案最受欢迎:

    • vLLM 是生产级GPU推理的领先工具,广泛应用于企业环境中。

    • SGLang 是一个新兴项目,吸引了类似的开发者群体,其目标是在本地推理服务中占据一席之地。

4)AI爱好者的选择(AI Enthusiasts)


 在个人电脑上运行模型的用户(如Apple MacBook的M系列芯片)中,以下选项很受欢迎:

    • Ollama 提供了直观的用户界面和高效的推理性能。

    • LM Studio 则是另一个受到欢迎的工具,适合希望快速启动本地模型的用户。

2、存储(Storage)



存储是状态化代理(stateful agents)的核心构件之一,支持代理的持续状态管理,如对话历史、记忆以及用于检索增强生成(RAG)的外部数据源。对于代理来说,存储解决方案的选择直接影响其处理复杂任务的能力和效率。主流存储工具包括以下两类:


1)向量数据库


向量数据库是代理存储的核心,特别适用于存储和检索大规模嵌入数据。以下是一些常见的选择:

  • Chroma:专为AI应用优化,便于集成。

  • Weaviate:提供丰富的内置特性,如图谱查询和嵌入存储。

  • Pinecone:以高性能向量检索为核心,适合生产环境。

  • Qdrant:开源解决方案,具有强大的定制能力和易用性。

  • Milvus:开源项目,支持分布式存储和高性能检索。

2) PostgreSQL(传统数据库的新生)


尽管PostgreSQL是一种传统的关系型数据库,它通过pgvector扩展实现了向量搜索功能,使其在现代AI代理应用中焕发新生:

  • Neon:无服务器(Serverless)的PostgreSQL版本,支持动态扩展。

  • Supabase:集成了嵌入存储和向量搜索,适合快速构建代理应用。

3、工具库(Tools & Libraries)



AI代理与传统AI聊天机器人的主要区别之一在于代理可以调用“工具”(或称“函数”)。这种能力使代理能够执行超出文本生成范围的任务,从而显著提升其功能性和适应性。代理工具执行不是由LLM提供商本身完成的 – LLM仅选择要调用的工具以及要提供的参数。支持任意工具或工具中的任意参数的代理服务必须使用沙箱(例如ModalE2B )来确保安全执行。


  • 标准化的JSON Schema

    OpenAI定义了一种JSON模式,成为代理调用工具的通用接口标准。由于这一标准化,工具可以在不同框架中实现互操作性。例如,Letta代理可以调用LangChain、CrewAI或Composio提供的工具。

  • 跨平台工具生态

     这一互操作性推动了通用工具生态的形成,一些常用工具提供了特定功能:

    • Composio:一个通用工具库,管理授权与工具调用,广泛应用于各种场景。

    • Browserbase:专注于网页浏览的工具,用于爬取和解析网页内容。

    • Exa:提供网页搜索功能的专用工具。

    •  

4、代理框架(Agent Frameworks)



代理框架是AI代理栈的核心,负责协调LLM调用并管理代理的状态。不同框架在状态管理、上下文窗口的构建、多代理通信、记忆处理,以及对开放模型的支持等方面有各自的设计特点。代理框架包括5大核心功能:


1)状态管理


  • 状态序列化(Serialization

    大多数框架支持将代理的状态(如对话历史、代理记忆、执行阶段)序列化为文件(JSON、字节流等),以便稍后加载。例如,Letta使用数据库(如消息表、代理状态表、记忆块表)来持久化状态,无需显式序列化。这种方法使得状态查询(如按日期查找过去消息)更加便捷。

  • 可扩展性与灵活性

    •   状态管理的设计直接影响代理系统的扩展能力(例如处理更长的对话历史或更多代理实例)以及状态访问和修改的灵活性。


2) 上下文窗口的构建


  • 每次调用LLM时,框架会将代理的状态“编译”进上下文窗口,包括指令、消息缓冲区等。

  • 透明性是一个重要考虑因素:框架是否允许开发者清晰了解哪些数据被传入上下文窗口?透明的设计让开发者更容易优化代理的行为和性能。

3)多代理通信(Cross-Agent Communication)


不同框架支持多代理协作的方式各有不同:

    • Llama Index:通过消息队列实现代理间通信。

    • CrewAI 和 AutoGen:使用显式的抽象器进行多代理协作。

    • Letta 和 LangGraph:支持代理之间直接调用,既可以集中式(通过监督代理)也可以分布式地进行代理通信。

    此外,大多数框架支持单代理和多代理的灵活转换,使跨代理协作易于实现。


4) 记忆处理(Memory Management)


LLM的上下文窗口限制对记忆管理提出了要求,框架通常采用不同的技术应对:

    • 基于RAG的记忆,CrewAI和AutoGen依赖检索增强生成(RAG)技术,通过从外部数据源检索相关信息扩展上下文。

    • 高级记忆技术。一些框架(如phidata和Letta)还采用了更复杂的方法,如MemGPT的自编辑记忆和递归摘要。Letta 内置了一套强大的记忆管理工具,支持文本搜索、记忆存储和编辑上下文窗口等功能。

5) 对开源模型的支持


  • 挑战:开源模型需要额外的处理,比如在输出格式不符合要求时重新采样,或者通过提示词(prompt engineering)微调输出(如“请输出JSON格式”)。

  • 并非所有框架都支持开放模型,一些框架专注于主流模型提供商的集成。

5、代理托管与服务(Agent Hosting and Serving)



目前,大多数代理框架的设计局限于Python脚本或Jupyter Notebook环境,代理在这些环境中运行,但无法超越其所在的开发上下文。然而,随着代理技术的不断发展,代理服务化(Agent-as-a-Service)的未来趋势愈发明确:将代理部署到本地或云端基础设施,通过REST API提供访问服务。

类似于OpenAI的ChatCompletion API成为LLM服务的行业标准,预计未来会出现一个统一的Agents API标准。


三、附录



(文:硅谷科技评论)

欢迎分享

发表评论