跳至内容
LangChain 今年整了一篇总结文,分享一些观察到的行业里的产品应用模式,一窥 AI 生态和构建 LLM 应用的实践发展。
LangSmith 是 LangChain 的一个 all-in-one 的 LLM 应用开发平台,在今年每个月都有近三万用户注册使用 LangSmith.
随着用户在 LangSmith 上对 LLM 的不断追踪(Trace,是一种用于追踪和记录系统执行路径的方法,它可以帮助开发者深入理解系统的行为。在 LLM 应用中,Trace 技术能够捕获模型推理过程中的关键信息)、评估和迭代,我们看到了一些显著的变化。
其中包括:开源模型的使用率急剧上升,从以用于检索的工作流为主,向包含多步骤的 Agentic workflow 的 Agent 模式转变。
就让我们一起来看看,LangChain 的统计数据,来看看开发者是如何构建、测试的吧!~
与 2023 年的结果一样,OpenAI 是 LangSmith 用户中使用最多的 LLM 提供商,其使用量是排名第二的 Ollama 6 倍多。
有趣的是,Ollama 和 Groq 今年势头迅猛,跻身前五。Ollama 和 Groq 都是开源模型,不同之处在于,Ollama 侧重于本地部署、Groq 侧重于云端部署。他俩的排名上升表明,开发者对更灵活的部署选择和支持定制化的 AI 基础设施愈发有兴趣。
在提供开源模型领域,排名靠前的模型厂商与去年相比保持相对稳定,Ollama、Mistral 和 Hugging Face 都为开发者在其平台上运行开源模型提供了便利。这些提供商的总体使用率大约占前 20 名 LLM 提供商的 20%。
Top 10 检索服务和向量数据库
对于许多 GenAI Workflows 来说,检索技术至关重要。排名前三向量数据库与去年相同,Chroma 和 FAISS 是最受欢迎的选择。2024 年,Milvus、MongoDB 和 Elastic 的向量数据库也进入了前十名。
用 LangChain 构建产品
开发者构建更加多元有趣的应用,从复杂的 Workflow 到 Agent,生成式 AI 应用的开发生态正在不断发展,创新。
可观测性(Observability)不仅限于 LangChain 应用
虽然 LangChain 是许多人开发 LLM 应用程序的核心选择,但 2024 年有 15.7% 的 LangSmith 的程序来自非 LangChain 框架。这反映了一个更广泛的趋势,即无论开发者使用什么框架来构建 LLM 应用,都需要可观测性。
Python 仍为主导,JavaScript 使用量增长
调试、测试和监控在 Python 开发者心中占有特殊地位,84.7% 的使用量来自 Python SDK。但是,随着开发者们对 Web 应用开发的追求,大家对 JavaScript 的兴趣也在显著增加,JavaScript SDK 今年占 LangSmith 使用量的 15.3%,比上一年增加了 3 倍。
AI Agent 受到更多关注
随着企业越来越重视在各行各业应用 AI Agent,可控的 Agent 框架 LangGraph 的使用率也在不断上升。自 2024 年 3 月发布以来,LangGraph 的使用率已稳步增长,目前有 43% 的 LangSmith 用户正在使用LangGraph。这表明 AI Agent 对复杂任务的协调,超越了基本的 LLM 交互能力范畴。
LangGraph 的增长与 AI Agent 的兴起是相一致的。我们看到,目前平均 21.9% 的使用涉及工具调用,而 2023 年的平均比例仅为 0.5%。
工具调用允许模型自主调用函数或外部资源,这标志着有了更多的智能 Agent 行为,由模型决定何时采取行动。更多的工具调用可以增强 Agent 与外部系统交互和执行任务(如写入数据库)的能力。
性能与优化
在 2024 年,每个 Trace 的平均步骤数增加了一倍多,从 2023 年的平均 2.8 步增加到 2024 年的平均 7.7 步。这里将执行步骤定义为 Trace 中的一个独立操作,如调用 LLM、检索、调用工具。这一增长表明,企业正在利用更加复杂和多流程节点的 Workflow,与简单的问答互动相比,开发者正在构建将多项任务串联在一起的系统(如检索信息、处理信息、生成可操作的结果等)。
相比之下,每个 Trace 的平均 LLM 调用次数增长较缓,从平均 1.1 次增加到 1.4 次。这说明了开发者在设计系统时,以较少的 LLM 调用实现更多的功能,在达成功能的同时控制昂贵的 LLM 成本。
虽然保持 LLM 应用的高质量并非易事,但我们看到一些组织在使用 LangSmith 的评估功能来自动化测试并生成用户反馈的循环,以创建更强大、更可靠的应用。
用 LLM 来评估
用 LLM 评估时,开发者首先在 Prompt 里写评分规则注入 LLM,然后 LLM 按照定义的规则来判断输出是否符合标准并进行评分。开发者测试最多的维度为:Relevance(相关性), Correctness(正确性), Exact Match(精确匹配度), Helpfulness(有用性)。
这表明大多数开发者都在对 LLM 的响应质量进行一些检查,以确保 AI 生成的输出不会完全失准。
根据人类反馈进行迭代
对于构建 LLM 应用来说,人类反馈是迭代循环的关键部分。
LangSmith 加快了收集和纳入人类对程序运行反馈的过程,这样开发者就可以创建丰富的人类反馈数据集,用于改进和优化。在过去一年中,带有注释的运行增长了 18 倍,与 LangSmith 使用量的增长成线性关系。
每次运行的反馈量也略有增加,从每次运行 2.28 条反馈条目增加到 2.59 条。不过,每次运行的反馈仍然相对不算很多。开发者会优先考虑核查运行的速度,而不是提供全面的运行反馈,或者只对需要关注的最关键或最有问题的运行进行评价。
2024 年,开发者通过多步骤的 Agent 提高了 LLM 应用开发的复杂性,通过减少 LLM 的调用提高了效率,并使用人类反馈和评估方法,增加了应用的质量检查。
随着更多 LLM 应用的诞生,很高兴能看到开发者将如何探索更智能的工作流、更好的性能和更强的可靠性。
(文:特工宇宙)