
Harvey 绝对是法律场景落地最成功的 AI 企业了。
成立于 2022 年,客户数量从 2023 年的 40 家增长到 2024 年的 235 家,遍布 42 个国家;在美国《法律周刊》评选的前 100 家律所中,有 28 家正在使用 Harvey。
2024 年 ARR 达到 5000 万美元,今年年初预计 8 个月内将达到 1 亿美元,2 月份拿到了红杉资本领投的 3 亿美元 D 轮融资,公司估值达到 30 亿美元。简单说的话,Harvey 现在的收入与 AI 搜索当红炸子鸡 Perplexity 相当。
在前不久福布斯发布的 2025 AI 50 榜单中,Harvey 是法律领域上榜的为数不多的公司之一。Harvey 目前已经能够实现自动处理从文件审查到客户沟通的整个法律流程,几乎能替代一整个初级律师团队。
近段时间,Harvey 的创始人兼 CEO Winston Weinberg 以及产品负责人 Aatish Nayak 接受了多家播客节目的访谈,在访谈节目中,两人详细地分享了包括 Harvey 的顶层战略方向设计、法律类 AI 产品如何实现商业化落地、法律类 Agentic workflow 的构建以及对于近期热门的推理模型如何应用等经验。
本篇文章由 A16Z、Sequoia、No Priors 的三期播客节目内容整合而来。
TLDR
-
在法律领域,「幻觉」在法律领域绝不能被视为一种「特性」,准确性是法律工作的基石,任何不准确的信息都可能导致严重的后果。Harvey 的目标是竭尽全力去最大限度地减少直至消除「幻觉」。
-
Harvey 给用户的感觉更像是一个同事,而不仅只是一个人工智能工具或软件,Aatish Nayak 希望它能像人一样进行互动,能够提供更多独特的、来回引导式的交互体验,而不是仅仅停留在文本指令的交流模式。
-
法律行业本身极其复杂,也是关键所在。对 GPT 「套壳」公司的最大误解在于,大家低估了基础模型与行业需求之间的距离。Harvey 早期的核心竞争力是「引用能力」,逐行引用并确保引用的精确性,在法律工作中至关重要。从本质上讲,Harvey 更像是一个智能协作系统或复合人工智能系统,其运作模式模仿了律师事务所内部的工作方式。
-
在市场推广方面,Harvey 选择了先瞄准大型律师事务所,再向下渗透至整个行业的思路。Harvey 认为,在专业服务领域,声望和信任至关重要。一旦赢得其中几家事务所的信任,其他事务所、下游律所及其客户也会随之建立信任。
-
对于企业客户的敏感数据处理,Harvey 有极其严格的「禁止训练」政策,称为「不接触」原则(eyes-off policy)。默认情况下,Harvey 对所有文件的处理操作要求,都明确规定绝不能利用客户的数据进行训练。同时,Harvey 的员工也无权查看这些客户数据。

Harvey 绝对是法律场景落地最成功的 AI 企业了。
成立于 2022 年,客户数量从 2023 年的 40 家增长到 2024 年的 235 家,遍布 42 个国家;在美国《法律周刊》评选的前 100 家律所中,有 28 家正在使用 Harvey。
2024 年 ARR 达到 5000 万美元,今年年初预计 8 个月内将达到 1 亿美元,2 月份拿到了红杉资本领投的 3 亿美元 D 轮融资,公司估值达到 30 亿美元。简单说的话,Harvey 现在的收入与 AI 搜索当红炸子鸡 Perplexity 相当。
在前不久福布斯发布的 2025 AI 50 榜单中,Harvey 是法律领域上榜的为数不多的公司之一。Harvey 目前已经能够实现自动处理从文件审查到客户沟通的整个法律流程,几乎能替代一整个初级律师团队。
近段时间,Harvey 的创始人兼 CEO Winston Weinberg 以及产品负责人 Aatish Nayak 接受了多家播客节目的访谈,在访谈节目中,两人详细地分享了包括 Harvey 的顶层战略方向设计、法律类 AI 产品如何实现商业化落地、法律类 Agentic workflow 的构建以及对于近期热门的推理模型如何应用等经验。
本篇文章由 A16Z、Sequoia、No Priors 的三期播客节目内容整合而来。
TLDR
-
在法律领域,「幻觉」在法律领域绝不能被视为一种「特性」,准确性是法律工作的基石,任何不准确的信息都可能导致严重的后果。Harvey 的目标是竭尽全力去最大限度地减少直至消除「幻觉」。
-
Harvey 给用户的感觉更像是一个同事,而不仅只是一个人工智能工具或软件,Aatish Nayak 希望它能像人一样进行互动,能够提供更多独特的、来回引导式的交互体验,而不是仅仅停留在文本指令的交流模式。
-
法律行业本身极其复杂,也是关键所在。对 GPT 「套壳」公司的最大误解在于,大家低估了基础模型与行业需求之间的距离。Harvey 早期的核心竞争力是「引用能力」,逐行引用并确保引用的精确性,在法律工作中至关重要。从本质上讲,Harvey 更像是一个智能协作系统或复合人工智能系统,其运作模式模仿了律师事务所内部的工作方式。
-
在市场推广方面,Harvey 选择了先瞄准大型律师事务所,再向下渗透至整个行业的思路。Harvey 认为,在专业服务领域,声望和信任至关重要。一旦赢得其中几家事务所的信任,其他事务所、下游律所及其客户也会随之建立信任。
-
对于企业客户的敏感数据处理,Harvey 有极其严格的「禁止训练」政策,称为「不接触」原则(eyes-off policy)。默认情况下,Harvey 对所有文件的处理操作要求,都明确规定绝不能利用客户的数据进行训练。同时,Harvey 的员工也无权查看这些客户数据。

-
高浓度的主流模型(如 DeepSeek 等)开发交流;
-
资源对接,与 API、云厂商、模型厂商直接交流反馈的机会;
-
好用、有趣的产品/案例,Founder Park 会主动做宣传。
不是 GPT 套壳,
而是法律行业的「AI 操作系统」
主持人:你在 2022 年 7 月创业,当时 ChatGPT 尚未问世,这一领域几乎不存在。ChatGPT 一出现,有人认为你们的产品只是基础模型的「GPT wrapper」(GPT 套壳),毫无价值,是什么让你坚信这是一个值得投资的业务?如何在基础模型与客户之间创造真正的价值?
Winston Weinberg:法律行业本身极其复杂,这是关键所在。对 GPT 「套壳」公司的最大误解在于,大家低估了基础模型与行业需求之间的距离。我们早期的核心竞争力就是「引用能力」:逐行引用并确保引用的精确性,这在法律工作中至关重要。(注:这里的「引用能力」是指在法律文本中,AI 能够准确溯源其生成内容是基于原文的哪一部分)
从一开始,我们就将大量资源投入到这一功能上。如果只做「引用工具」,确实难免沦为 GPT 的「套壳」,最终被市场淘汰。但我们的目标是与行业深度协作,推动这个万亿美元市场的系统性变革。法律领域数据繁杂、流程高度专业化,仅靠模型本身无法实现全面自动化。
基础模型在不断进步,能为行业提供强大引擎,但它们只能替代流程中的某些环节。每当有新功能出现,我们会将其融入到我们自己产品已有的流程当中。以 OpenAI 发布的 Deep Research 为例:它大幅提升了资本市场研究和大规模数据分析的效率,虽然目前无法覆盖律师的全部工作,但完全可作为百余步骤流程中的重要一环。当基础模型能力增强或出现新功能时,相当于为我们解锁了新的市场机会和可构建的流程模块。
主持人:长期以来,在硅谷圈内普遍认为,向律师事务所或专业服务机构销售产品并非最具前景的领域,原因在于这些机构历来对新技术采纳较为缓慢。很多人觉得,它们的计费模式与提高效率或采纳新技术似乎不太契合。我很好奇,Harvey 对此怎么看?
Aatish Nayak:从产品和人工智能研发层面来讲,我们会让律师团队深度参与其中。我们设立了专门的法律研究部门,该部门与产品经理和人工智能工程师紧密协作。他们的核心任务是将复杂的法律工作流程转化为可执行的算法。
从本质上讲,Harvey 更像是一个智能协作系统或复合人工智能系统,其运作模式模仿了律师事务所内部的工作方式。在律所里,如果一位合伙人承接了一个交易或诉讼项目,他会将其分解成若干子任务,可能分配给初级合伙人,初级合伙人再进一步细化,交由律师助理执行。随后,由于律所是层级分明的组织结构,律师助理完成的工作会提交给上级进行审核和校对,最终由合伙人向客户交付最终成果。我们的律师团队与工程师合作,正是为了在不同类型的任务中复制这种分层协作模式,通过实际的「白板讨论」,将不同的工作流程细致地梳理和展现出来,以便人工智能工程师能够将其转化为可执行的模型。
主持人:您提到这些不同的智能工作流程,您认为这些流程会取代人们之前所做的工作吗?还是说您更倾向于将其视为 AI 辅助模式,或者是一种新型的人机协作模式?
Aatish Nayak:我认为将其仅仅视为「取代」或「辅助」可能有些片面。从宏观上看,法律领域异常复杂,并且这种复杂性还在不断增加,坦白说,在该领域开展工作的成本也持续攀升。全球化、互联网以及人工智能等因素,在过去几十年里极大地增加了法律工作的总量。因此,对于法律服务的需求几乎是无限的,因为企业需要处理各种交易、应对复杂关系等等。需求无限,而供给却非常有限,这种供给瓶颈导致了一个不幸的人力成本问题:律师们往往需要长时间工作,而且常常要处理一些非常重复枯燥的任务。
我们与招聘的律师以及客户交流时发现,他们之所以选择成为律师,并非是为了反复修改同一份文件的第五稿,或是重复解答相同的法律研究问题。他们更希望成为律师是希望能够创造性地运用法律知识,提供专业的法律意见,参与塑造社会的法律框架。我们经常从客户那里听到一些积极反馈,比如 Harvey 能够为他们节省 30%到 40%的时间,因为它确实帮助他们实现了那些基础性、重复性工作的自动化。实际上,前几天有一位客户告诉我,Harvey 让他们能够按时下班回家陪伴家人,因为它显著加快了许多工作的进度。需求无限而供给有限,恰恰为人工智能在这个领域发挥关键作用提供了广阔空间。
02
把 Harvey 当同事,
像人一样互动
主持人:你们在打造AI法律产品方面的理念是什么?拥有客户资源是优势,但当前技术变化飞快,几乎每月都有新模型出现。想要在这样一个快速发展的基础上构建稳定产品,挑战应该不小。
Aatish Nayak:是的,这里涉及到几个方面。我们经常被问及,如何在兼顾律师现有工作流程和界面的基础上,探索全新的人工智能原生用户体验。我觉得有必要强调一点,目前并没有专门为律师设计的集成开发环境(IDE),不像开发者有 VS Code 或 Cursor 这样的工具。律师最常用的工具依然是 Word 和电子邮件,也就是 Outlook。我们的产品需要在这些现有工具中进行交互。但归根结底,我们别无选择,只能在这些现有工具或软件基础上进行开发,因为确实没有其他成熟的基础设施可用。因此,我们选择了构建 AI Native 的用户体验和应用程序。
主持人:AI Native 的用户体验具体指什么?
Aatish Nayak:我认为,最核心原则之一,是我们希望 Harvey 给用户的感觉更像是一个同事,而非仅仅是一个人工智能工具或软件,我们希望它能像人一样进行互动。
如果你在律师事务所或企业中与某人合作,通常需要与他们进行反复的交流和沟通,根据需求向他们提供更多信息。打个比方,我找到一个人,说:「嘿,你能帮我起草这份一对一的披露文件吗?」如果他是一位优秀的同事,他会问你:「嘿,我需要更多信息,你能告诉我信息来源是什么?格式和语气有什么要求?我们具体在处理什么交易?」然后,他可能会先起草一份文件,并问:「嘿,你能帮我检查一下我的工作吗?我的方向对吗?」这就是我们希望 Harvey 带来的体验,即通过这样的来回沟通和协作,引导你逐步完成工作。
主持人:那它的界面仍然是聊天机器人的形式吗?用户实际操作的界面到底是什么样的?
Aatish Nayak:它确实有点像聊天界面,但会融入一些动态的用户界面组件。我们在这里考虑的另一个重要原则是「宜家效应」。这个效应的核心观点是,如果人们参与了某件事情的构建过程,他们会对自己的成果产生更强的责任感和认同感。宜家在这方面做得非常成功,他们将组装家具的过程设计得既有趣又令人愉悦,在说明书等方面投入了大量精力。过去,人们对亲手组装宜家家具有着近乎狂热的喜爱,形成了一种独特的社群文化,尽管现在可能没那么夸张了。
对于我们而言也是一样,你不可能指望用 0.1 版本的模型一次性就完美的起草一份 S1 文件,实际的法律工作需要大量的反复修改和沟通,过程非常复杂。这涉及到人类独有的数据集,如果我们只是简单地说「嘿,起草这份披露时间表」,然后 Harvey 直接给出了最终结果,用户是不会完全信任的,因为他们不清楚内容的生成逻辑和来源。所以,我们希望融入一些提示机制,我们称之为「轻拍提醒」(Harvey 中用来引导用户提供信息的机制),让 Harvey 在给出最终结果之前,主动请求用户的反馈、数据和意图信息。
主持人:如果我是一名律师,实际使用中的场景会是怎样的?很多 Agent 类产品在工作时会展示它正在进行的操作,但在过程中会有一些等待时间。律师会收到类似「回来一下,我有问题」这样的通知吗?如何将这个过程融入日常工作流程,而不是需要用户持续盯着屏幕?
Aatish Nayak:对于我们的用户群体和产品特性而言,一个有趣的现象是,我们对响应速度的要求并非极致。我认为对于很多聊天产品或新兴的消费级人工智能应用,大多数用户都期待即时反馈。但由于我们产品的输出质量非常高,能够生成接近人类水平的成果,所以用户愿意等待两分钟、三分钟甚至四分钟来获取结果。正是因为用户能够接受等待,这使我们有空间在每次处理过程中融入更多智能处理环节,进行更多的模型调用和复杂的算法运算,对此用户可以接受并愿意等待。我们正在引入异步的 Agent,当任务完成时,它会通过电子邮件或提醒的方式通知用户。所以,延迟对我们来说并不是一个严重的问题,这为我们的工作提供了很大的灵活性,只要 Agent 对其工作过程保持一定的透明度,而不是无缘无故地长时间运行,我认为这对于我们的用户群体来说是完全可行的。
主持人:我们现在是否已经明确知道最佳的AI 原生用户界面或用户体验应该是什么样的?如果答案是肯定的,我想了解是什么样的?如果答案是否定的,您认为目前正在进行哪些实验?或者还有哪些工作流程是人们尚未完全理清的?
Aatish Nayak:我认为答案是否定的。我认为目前的聊天界面相当于人工智能的「命令行」阶段,就像当年微软的 MS-DOS 刚出现时,用户只能通过在终端输入指令来操作。我们现在的 AI 用户界面方面也处于类似的早期阶段。我期待在 2025 年,我们能够看到更多创新的交互方式,有更多动态的用户体验来与模型进行互动,而不仅仅局限于文本交流。
首先,我认为人们必须认识到,大多数用户(包括我们的用户),他们的查询或指令往往不够精确。有趣的是,人们对人工智能已经产生了很强的依赖,他们甚至认为人工智能是无所不知的。举例来说,我们收到过不少支持请求,用户会说「去我的邮箱里搜索那个东西,然后把结果给我」,或者「嘿,你还记得我上次说的那件事吗?用那个信息来得出答案」。我觉得这既需要对用户进行教育引导,另一方面也人工智能也确实需要更好地与用户协作,主动从用户那里获取准确的意图信息,而不是仅仅依赖一次性的指令来完全理解用户需求。我希望看到 Agent 能够提供更多独特的、来回引导式的交互体验,而不是仅仅停留在文本指令的交流模式。
我认为对于企业级应用而言,实际上客户更需要这种 AI 原生的、深度集成的用户体验,因为企业的工作流程非常复杂和专业,而且企业工作往往是由团队或多人协作完成的。因此,相比于消费级产品,企业需要更完善、更自然的协作式用户体验。消费级产品的应用场景非常多样化,人们使用人工智能的方式也五花八门,也许在这种情况下,最佳的用例或最佳的用户界面就是聊天界面,因为它足够开放,可以覆盖广泛的市场需求,这也是我们目前所看到的情况。但我确实认为,在企业级领域,需要在用户体验方面进行更多深入的探索和实验,因为企业的工作流程具体且复杂,任务难度高,而且永远不可能靠单一指令一步到位地完成。
03
Harvey 提供的是垂直场景的 Agentic workflow
主持人:简要介绍一下构建产品方面有哪些重要进展或关键节点?
Winston Weinberg:关于如何构建产品,我认为一个关键且极具挑战性的方面在于,这涉及到协调我们在不同组织层面的工作,以及如何把握不同的重点。基于此,核心策略是我们必须持续地扩展产品能力,然后再将其有效地整合起来。从理想状态来看,如果所有模型都能完美协作,人类沟通也毫无障碍,那么最理想的用户界面可能就是电子邮件,因为它能无缝处理所有联系和信息,甚至能预测用户需求。
主持人: 听起来,它甚至可以是 NeurAI link(神经连接,指直接连接到思维)。
Winston Weinberg: 是的,那确实是更理想的状态。但现实并非如此,而且我认为这也不可能一蹴而就。
因为即使技术在模型端实现了,也难以与人类现有的工作流程无缝对接。 我经常举例说明:比如即使模型能以某种方式串联完成像微软和动视(Activision)合并这类大型并购中的所有步骤,用户也无法简单地下达「请合并」这样的指令,并期待它能自动完成一切,用户界面方面也存在很多交互问题。这也是我刚刚讲的,必须持续扩展和整合产品能力的观点。因此,基于聊天的用户界面并不适用于所有用例,现在不是,将来我认为也不会。
举例来说,如果您尝试构建一个能够进行高质量判例法研究的工具,这涉及多个步骤。您需要构建一个善于检索所有案例的系统,一个善于比较和对比所有案例的系统,以及一个能够将您案件中的事实与所有判例法进行综合分析的系统等。若要实现这一点,最好的方法是扩展产品,构建特定的垂直领域解决方案,可以称之为 Agentic workflow,或其他任何称谓,总之以端到端地完成这项工作,最后整合在一起。
最终会是什么形态呢?我们会选择一些极具价值的用例,构建特定的工作流程来完成,并将它们「链接」起来,使用户能够端到端地完成一项任务。其中的难点在于,如果我们以席位为单位进行销售,就必须提供适用于尽可能多用户的功能。因此,我们需要权衡的是:构建一个对证券律师极具价值的功能,还是一个对所有律师都适用的功能?这是整合的挑战所在。我们需要构建这些特定的工作流程或 Agent 工作流程,然后将它们组合到产品统一的服务层面上。
具体来说,用户将一份股权购买协议(SPA)上传到 Harvey。我们内部构建了许多不同的工作流程,虽然用户可能看不到这些,例如从协议中提取陈述和保证、总结协议,或执行其他相关任务。这些工作流程都已独立构建完成。用户既可以通过相应的用户界面单独执行这些工作流程,也可以在上传 SPA 时,由 Harvey 提示:「您希望运行其中的哪些工作流程吗?」这就是整合的体现。因此,我们构建这些特定的解决方案,然后再将其整合。
主持人:详细地介绍下,具体的人机交互模式会是什么样的呢?
Aatish Nayak:这是一个关于通用人工智能的普遍性议题,例如人类在其中扮演何种角色,工作在多大程度上可以实现完全自动化?实际情况是,比如要起草一份 S4 或 S1 文件,你不可能简单地将任务交给一个 AI 推理模型,然后说「嘿,给我写一份 S1 文件」,然后就万事大吉了。这其中必然需要用户的全程参与,且相关的每个人都需要参与。同时,你不能完全依赖模型来独自完成 S1 文件的起草,因为完成一份 S1 文件或进行一次企业并购的过程,本质上是律师事务所、客户以及其他相关方之间高度互动的过程。
因此,我们认为这些智能系统必须与人类用户紧密协作才能高效完成任务,因为人类用户有一些 Agent 不能直观理解的特定意图,或者 Agent 当前不具备的数据信息。所以在设计这些智能系统时,我们采用了一种以AI为核心的用户体验设计理念,旨在使其能够与不同的组织成员进行有效协同,从而推动工作进展。例如,Agent 可以主动提出:「嘿,我已经起草了这份文件,我的方向是否正确?请提供更多信息,因为我在这个决策点上有些不确定该如何继续。」 未来我们会看到更多这样主动式的交互模式,Agent 能够真正地与律师事务所的不同人员进行沟通,实现高效协同来完成各项任务。
主持人:你认为其中核心价值有多少来自模型本身,又有多少在于你刚才描述的,比如 Agentic workflow 或认知架构?
Winston Weinberg: 我认为可以将这个问题分解为三个层面。对于每个工作流程,首要问题是:用户想要什么?他们的意图是什么?以及如何准确提取这些意图?其次,是需要哪些背景信息?最后是,结果是否准确?
我的观点是,不同的系统在处理这些不同类型的需求时表现出色。例如,利用模型进行预测和路由(Routing),对于理解用户意图非常有益。因此,将用户的查询准确路由到他们希望执行的特定任务非常有效。这其中涉及一个编排的层面。在背景信息方面,我们是否有预定义的系统来搜索与问题相关的内部文档和外部文档?其中很大一部分工作是信息检索。我们构建的主要功能是进行信息检索,并进行路由,以确保在需要时能访问外部文档和内部文档。
回到我的引用例子,这看似简单,但实际上非常重要。我认为,许多工作虽可由模型辅助完成,但我们必须确保模型善于验证特定信息。举个例子,在法律领域有一个概念叫做「市场」。模型并不知道什么是市场,因为市场有不同版本:有特定私募股权公司的市场习惯条款(比如他们在杠杆收购、交易或附函中使用的条款),有所有私募股权公司通用的条款,还有一般的并购条款。模型无法访问以上这些数据。因此,关于第三点(结果的准确性),很大程度上取决于我们是否能构建一个系统,这个系统能够高效地在需要时检索并比较所有这些不同的数据集。
主持人:我想回到您刚才提到的扩展和整合用户界面的概念,我认为这个概念很有启发性。您认为律师与 Harvey 互动的理想最终状态是什么样的?是那种类似于电子邮件的简洁用户界面,只输入「合并公司 A 和 B」,任务就能完全自动化,还是?
Winston Weinberg:我认为我们短期内不会达到那种状态,但这并不是我不看好基础模型的进步。我的意思是,我深信基础模型会持续改进,我们将此作为公司设计的核心驱动力。我认为最主要的问题在于,那样做会使用户缺乏对工作流程进行干预和判断的必要空间。
我认为,当人们谈论 Agent 时,他们通常指的是那些相对简单且经济价值不高的任务。而当我们构建工作流程并引入 Agent 时,我们关注的是那些涉及数十万美元成本的任务。法律行业之所以非常适合大型语言模型,原因之一在于:这个行业是基于文本的,而每个 token 具有极高的价值。在法律和专业服务领域,token 的价值尤其突出。试想一份 50 页的并购协议,考虑到生成它的成本,其中的每一个词、每一个 token 都价值不菲。因此,我认为最终状态是持续构建这些 Agent 和工作流程,并尽可能多地相互连接。这样一来,尽管用户界面可能保持相似,但系统的推荐和路由模型会不断优化,编排模型也会持续提升。
以律师事务所为例,可以这样理解:我们正在构建能够执行不同任务的专业化助理。同时,合伙人或管理合伙人的运营模式也至关重要。我认为,随着模型使我们能构建越来越多专业化的特定助理,我们也需要投入大量精力构建一个能将所有这些整合起来的编排层。因此,尽管我们的用户界面可能看起来相似,类似于一个文本交互窗口,但当用户上传大量文档后,系统能够提供操作建议,或者提示用户:「这是您上次执行的任务,是否需要再次运行?」诸如此类的智能化和便捷性将得到提升,更像是一个非常了解需求的同事。
04
模型评估主要看 AI 能完成的工作量
主持人:Harvey 的产品底层技术架构是怎么样的?你们主要使用特定的基础模型吗?如何评估和决定更换模型?
Aatish Nayak :Harvey 由数百次不同的模型调用组合而成,采用复合人工智能系统来生成最终输出。目前在实际应用中,我们主要依赖 OpenAI 的模型,直接调用或者通过 Azure 部署。
这主要是基于两点考虑:一是 OpenAI 的模型性能非常出色;二是 Azure 的基础设施卓越,具备高速、高安全性的特点,能够赢得客户的信任。就像我之前说的,客户非常信任 Azure,并希望它是我们默认的云服务选项,这是我们建立信任的关键。但总体而言,我们并非完全锁定 OpenAI。实际上,我们与所有主要的AI实验室都有合作,共同推动他们产品的发展,并提供关于法律推理方面的指导。我们还会分享数据集,交流我们获得的洞见。因此,我们当然乐于尝试各种不同的模型,只是目前受限于业务安全和基础设施的要求,尚未完全实现。
主持人:更换模型有多大难度?如何确保更换后用户体验的一致性?
Aatish Nayak:从人工智能基础设施的角度来看,我们从一开始就非常注重模块化设计,这样可以相对便捷地切换不同的模型序列和 API 端点。真正的挑战在于评估环节,每个模型都有其独特的特性和行为模式,同样的指令或微调数据在不同模型上的效果可能会有差异。因此,更换模型确实需要投入大量的评估工作,以确保产品质量不会因此下降。
主持人:你们是否为此建立了内部评估体系?
Aatish Nayak:评估是我们工作的重中之重。在公司发展过程中,人类专家数据对于构建我们的系统来说至关重要。我认为评估主要分为内部和外部两个层面。内部评估旨在持续改进我们的人工智能系统;外部评估则用于向用户清晰传达产品价值。在内部评估方面,我们既有内部的法律专家团队,也会邀请外部专家参与,比如来自不同国家、不同业务领域的律师,他们会进行各种绝对或相对评估。绝对评估是对生成的内容依据特定标准进行评分;相对评估则是对比我们算法生成的两个不同版本,然后进行优劣评分。随着公司的发展,我们在这方面投入了大量资源,并持续扩大评估规模。
在外部评估方面,难点在于很多法律工作实际上是在客观事实的基础上应用主观判断。而评估主观判断非常困难,因为没有绝对客观的标准。比如,当你以某种方式解读法律,这种解释是比别人的更好还是更差?所以总体而言,外部评估和沟通产品价值非常具有挑战性。而且从外部来看,法律任务种类极其繁多。如果您查看法律任务的分类法,会发现几乎有一万个细分的节点。律师们已经对这些类别进行了细致的划分。这里的挑战之一就是,如何让客户信服 Harvey 是高效、准确且可靠的。
因此,我们花费了很多时间,并在去年早些时候发布了一个名为「大律师基准」(Big Law Bench)的基准测试,选取了代表律师日常实际计费工作的顶级任务进行测试。目前所有公开的法律基准测试都采用了选择题的形式,但实际上,法律工作非常开放且复杂,并不能简单的用选择题来衡量。我们发布的这个基准测试表明,我们正在衡量律师实际会做的具体工作,以及 Harvey 在处理这些工作时的表现。另外,基准测试衡量的并非单纯的准确性,而是模型完成的工作量占 100%人工完成所需工作量的比例。
主持人:您的意思是时间是衡量标准吗?
Aatish Nayak:不完全是时间,我们更侧重于衡量模型完成了整个任务中多大比例的工作量。比如,在一项起草任务中,模型可能完成了 85%到 90%的内容,人工只需要处理剩下的 10%左右。这样做是因为,单纯看「准确性」容易忽略整体价值。即使模型不是 100%准确,但它已经帮你完成了大部分基础工作,这带来的效率提升远比从头开始要大得多。我们衡量的是模型为用户带来的实际工作量减少和效率提升。
主持人:你们是如何定义「工作完成」的衡量单位?这是一个相对新的领域,人们可能很难准确理解这些衡量标准的含义。
Aatish Nayak:这确实非常困难,而且衡量标准会因具体任务而异。不仅取决于任务本身,也取决于我们的客户。例如,不同律师事务所创建案件时间线的方式可能大相径庭。所以我们的做法是,首先尝试标准化这些任务的名称和分类体系,然后针对性地制定相应的评估标准。比如说,律师事务所 A 和律师事务所 B 可能把时间线中的日期列放在不同的位置,但至少都会包含日期信息。因此,我们针对每一个主要的评估任务都制定了一套标准,这些标准是基于我们内部的法律专业知识建立的,并且每个任务的标准都有所不同。我们努力进行标准化,但实际操作中仍然存在显著差异。
05
「幻觉」不是法律领域的特性,
不打算自研模型
主持人: 关于大型语言模型,一个经常被讨论的问题是所谓的「幻觉」,即模型会生成听起来自信但实际上是错误或缺乏依据的内容。在法律领域,准确性至关重要。您如何看待这个问题?您认为「幻觉」是一个必须彻底消除的缺陷(bug),还是在某些情况下可以接受甚至加以利用的特性?
Winston Weinberg: 这绝对是一个核心问题,尤其是在法律领域。我的观点是,「幻觉」在法律领域绝不能被视为一种「特性」。准确性是法律工作的基石,任何不准确的信息都可能导致严重的后果。因此,我们的目标是竭尽全力去最大限度地减少直至消除「幻觉」。
我们采取了多种方法来应对这个问题。首先,正如我们之前讨论的,我们格外注重采用高质量、经过验证的数据用于模型训练和信息检索。其次,我们建立了复杂的后处理和验证机制,以检测和纠正模型可能产生的错误信息。例如,在法律引用方面,我们会进行多重交叉验证,以确保引用的准确性和有效性。
此外,我们非常强调「Human-in-the-Loop」(人机协同)的重要性。我们的产品设计理念是增强律师的能力,而非取代他们。这意味着律
师始终需要对模型生成的内容进行审查和验证。我们提供工具和界面,使律师能够方便地检查信息的来源和准确性,并在必要时进行修改。
当然,完全消除「幻觉」可能是一个极具挑战性的目标,尤其是在处理非常复杂和开放性问题时。但是,我们认为可以通过持续改进模型、数据和流程来显著降低「幻觉」发生的概率。在法律领域,我们必须将准确性放在首位,任何妥协都可能带来无法承受的风险。
至于在其他领域,「幻觉」是否可以被视为一种「特性」,我认为这取决于具体的应用场景和风险承受能力。例如,在创意写作或头脑风暴等应用场景中,模型生成一些新颖但可能不完全真实的想法,或许可以激发人类的创造力。但在高风险领域,例如医疗诊断或金融决策,准确性仍然是至关重要的。
主持人:法律行业是一个注重推理逻辑的行业,近期如 OpenAI 的 o 系列推理模型的发展以及对开发大规模测试时间(Test-time)推理模型的关注,对你们有多大影响?
Winston Weinberg:影响非常大,且是积极的影响。当你在构建 AI 系统的时候,因为模型还不能完全处理复杂问题,需要将每个问题拆解为子问题,分别解决。例如,解决「反垄断」相关 case,第一步是获取目标公司的所有财务数据,根据这些财务数据确定在不同国家需要提交的文件。下一步考虑,如何完成所有的文件提交工作呢?这是我们之前一直在想办法解决这个问题。
有了推理模型之后,就能逐步解决这些步骤。也就是说,我们不断构建可行的推理步骤,当基础模型得到改进时,就能推动我们更多地迈进一步。另外,成本降低对我们来说也是非常好的事情,当下我们主要优化质量,而非成本,如果价格下降,我们就能更快地提升所有用户群体的服务质量。
主持人:Harvey 是否构建或计划构建自己的基础模型?
Aatish Nayak: 简短的回答是:没有。我们目前没有构建自己的基础模型,也没有相关的计划。相反,我们选择与 OpenAI 等领先机构密切合作,通过微调、二次训练、提示工程以及检索增强生成(RAG)等技术,来构建我们这种智能复合人工智能系统。
主持人:未来有自研基础模型的打算吗?原因是什么?
Aatish Nayak:简短的回答依然是:没有这个打算。我们不计划构建自己的基础模型。计算成本是一个重要的考量因素,构建基础模型极其昂贵,我们宁愿将资金和资源投入到其他更具战略意义的方面。是的,开发基础模型确实需要筹集巨额资金,动辄数十亿美元。我们更倾向于将这项高度专业的任务留给专注于此的公司,而我们将精力集中在为最终客户提供价值,围绕现有基础模型构建创新产品和解决方案。
06
先拿下顶级律所,
再向下渗透整个行业
主持人:现在,Harvey 的客户涵盖了一些世界顶级的律师事务所,这自然使你们在流程数据方面拥有了独特的优势。我认为这是您在几年前做出的一个反常但极具信念的战略决策,当时有许多律师事务所希望与 Harvey 合作,但你们基本都婉拒了,而是专注于这些大型知名律所。能否简要谈谈是什么让您确信这是一个正确的策略?更重要的是,一旦您确定这是正确的策略,究竟是如何赢得他们的信任的?
Winston Weinberg:是的,我认为这个决策背后既有产品方面的考量,也有市场推广(GTM)方面的考量。从产品角度来说,我们的判断是模型会不断进步,因此需要构建下一代模型难以轻易复制的系统。这就要求我们攻克极其复杂的国际并购等类型的工作,打造能够处理这类复杂事务的系统,因为这样才最具防御性。这是产品层面的原因。
从市场推广角度来讲,在专业服务领域,声望和信任至关重要。声望之所以重要,是因为信任是专业服务领域最核心的因素。我们一开始瞄准大型律师事务所的原因在于,一旦赢得其中几家事务所的信任,其他事务所、下游律所及其客户也会随之建立信任。
我们曾考虑过是否直接面向企业客户,但这存在诸多问题。一个主要原因是,他们根本没有理由信任我们能真正构建出这些系统。那么,我们是如何赢得顶级律所信任的呢?我们做了许多完全无法规模化的事情。
我认为,对于任何构建 AI 产品并进行销售的团队而言,都需要有高度个性化的演示。过去如此,现在更是如此,而且其成本相对较低。我们早期采取的策略之一是,每当我向一位合伙人进行演示时,都会尽量使用他们最近处理过的案例。此外,律师非常善于辩论(褒义而言)。所以有时我会问:「这个论点如何?您会如何改进它?」如果在演示过程中遇到沉默,提出这个问题后,他们会仔细阅读 Harvey 输出的每一个字。尽管答案并不总是完美,但这促使他们以前所未有的方式参与进来。我们发现,许多资深合伙人可能从未接触过 AI 产品,因此向他们展示一些基本原理,而不仅仅是产品的独特之处,同样非常重要。
主持人:Harvey 成立了约两年时间,目前的计划是将业务扩展至法律行业以外,请你谈谈这一决策的考虑,以及现有产品体系和市场策略在新领域的适用性怎么样?
Aatish Nayak:我们确实拥有众多法律行业的客户,但我们不希望因此满足于现状。我们公司有一条文化原则,借用科比的一句话来说就是「工作尚未完成」(Work’s not finished)。我们依然在法律领域投入了大量精力。但从宏观角度来看,无论是处理交易类还是诉讼类工作,以及律师和法律工作的整体性质,你会发现其中涉及的人员并非仅限于法律专业人士。
例如,在企业并购交易中,会有税务专家、财务专家以及人力资源专家参与,他们需要协同整合来自两个团队的工作。因此,我们不会简单地认为只有律师才能使用我们的产品。我们的思路是,在处理这些大型项目的工作流程时,抓住机会将业务自然地扩展到其他相关领域。比如说,税务专家可能需要了解与法律专家相同的一些信息,只是可能在此基础上还需要获取一些更专业、更具体的内容。所以我们正在利用现有的律师客户以及他们参与的项目,顺势向这些新领域进行拓展。
我们的拓展方式有多种。总体上,我们采取了以客户需求为导向的方法。实际上,我们许多现有的企业客户已经开始让他们的合规和人力资源团队使用我们的产品了。因为在审查雇佣合同这类事务时,人力资源团队成员显然需要深度参与,这是一种非常自然的扩展方式,即在企业内部实现用户群体的有机增长。同时,我们也秉持客户至上的原则,正在与一些领先的专业服务机构开展合作。
例如,我们正与普华永道(PwC)合作,共同开发定制化的税务和财务尽职调查系统。在国际业务方面,普华永道是税务法律和财务尽职调查领域的顶级专家,他们为我们提供了深入的专业知识,并推动我们向这些方向发展。所以,我们已经在向这些领域扩展方面播下了种子,在未来的两到三年内,我们将很自然地进入这些新的领域。
主持人:您提到为新领域开发定制模型或流程,这是否意味着这些定制是普华永道独有的,不打算推广给其他客户?
Aatish Nayak:特别是针对税务工作,世界各地的税务律师会就特定税法如何适用于其客户提出大量问题,而其中很多关键的专业知识实际上掌握在普华永道这样的机构手中。比如,在英国税法领域,普华永道拥有世界顶级的税务专家。所以当我们说要开发定制系统时,我们实际上是利用了他们积累的大量数据,同时结合他们专家的专业知识和评估反馈来持续改进这个系统。我们会构建各种微调模型和数据采集系统,整合这些数据以及来自这些客户的评估信息。从这个角度看,普华永道是独一无二的合作伙伴。但随着时间的推移,我们也可能会开始与其他专业服务提供商展开合作。
07
将领域专家融入产品设计
主持人:Harvey 的团队是如何构建的?我想很难找到一个同时懂研究、工程、法律领域知识、可用数据,同时还能与用户互动的人,以及你们是如何跨团队协作完成这些工作的呢?
Winston Weinberg:我觉得我们在这方面正逐渐做得更好。我们开始将这些系统确定为所谓的「AI 模式」。也就是说,我们需要构建 30 到 50 个这样的模式,并将它们整合到产品的各个部分。举个例子,如果开发一个非常擅长案例法研究的 AI 系统,它可以应用于简易判决动议,也可以应用于无数不同类型的诉讼场景。它虽然不能从头到尾完成整个诉讼场景的任务,但你可以在其他基础上添加这个功能。所以,我们现在的做法是,有些团队负责构建这些模式,有些团队则负责将其应用到整个平台上。目前来看,效果还不错,但这肯定还在不断完善中。
还有一点很有趣,我们公司有很多律师,领域专家很有帮助,主要有两个原因:
其一,领域专家可以作为设计伙伴。他们很擅长指出我们需要教会模型做什么,需要采取怎样的逐步思考方式,用户想要的输出结果是什么等等。
其二,评估工作很难。对我们来说,大多数基准测试完全没用。比如,有人给我们某个模型的早期使用权限,说它在所有这些基准测试中表现都好得多,但实际上对于我们的业务来说并非如此。
现实情况是,你必须聘请非常优秀的律师来评估这些系统,在税务和其他领域也是如此。而且他们不能太初级,因为如果太初级却能胜任评估工作,那他们就该是资深律师了。所以,将领域专家融入产品设计、开发以及最终评估环节,是非常困难的,我们也一直在努力解决这个问题。
主持人:刚刚你提到税务评估方面,当你考虑组建团队开展工作时,新入职的工程师能理解税务尽职调查吗?你认为什么样的人适合加入 Harvey?
Winston Weinberg:我们正努力解决问题,也正在大量招人,同时也在努力做好知识共享,这很重要。我们做得不错的一点是彼此尊重程度高。许多工程师没有法律和专业服务领域经验,我们举办过几次关于复杂业务结构(如私有化交易)的研讨会,你能看到工程师们惊叹:「哇,这些人做的工作真的很厉害。」 不过在知识共享方面,确实是个难题,因为不少参与产品开发的人,在过去的职业生涯中没有实际接触过税务尽职调查这类工作。
主持人: 确实,拥有多样化的客户群体对此会很有助益。法律领域的专业问题如何解决?
Winston Weinberg:这确实是我们遇到的主要挑战之一。许多法律任务的关键流程数据并不存在于公开的互联网上,仅仅依靠模型自身难以完全解决。 例如,关于如何制作披露附表或理解特定「市场」习惯条款,这些实操性的流程知识在 Reddit 等网站上是找不到的。因此,我们聘请了领域专家来解决这个问题,他们会梳理并定义这些具体的操作步骤,然后我们将模型能力应用于这些步骤,或者针对性地进行微调来弥合差距。
另一方面,除了流程复杂,评估 AI 在法律领域的表现也极具挑战性,这要求我们必须聘请中级或更高级别的法律专业人士来承担大量评估工作。这是现实,因为如果初级人员就能胜任评估,那他们实际上已经达到了中级或高级水平。在律师事务所等专业机构中,中级或高级人员很大一部分工作就是评估初级人员的工作成果,这项工作非常耗时且成本高昂。我认为这些机构可能有 20%到 30%的收入用于此项工作。
08
主持人:您此前提到普华永道是一个很好的合作伙伴,在设计一些你们之前没有涉及的定制项目上提供了重要帮助,这需要普华永道给予你们高度信任,因为他们需要提供非常敏感的数据。而且,对于任何服务企业客户的产品公司而言,企业买家总会有很多关于数据使用方式的疑问,比如我的数据是否会被用于模型训练?这些数据会泄露给我的竞争对手吗?等等。你们是如何处理客户数据隐私这类的关键问题的?
Aatish Nayak:我认为这是企业软件领域一个普遍存在但讨论不足的话题,不仅仅局限于人工智能领域。企业的成熟度远超单纯的技术层面。我觉得,这需要从产品和工程团队的文化建设就开始,我们从一开始就采取了一些关键措施,因为我们的首批客户正是那些对于数据隐私要求最严苛的机构,他们处理着全球范围内极其敏感的业务,要赢得他们的信任,确实是巨大的挑战。
我们从一开始就实施了几项政策。首先,对于敏感数据,我们有极其严格的「禁止训练」政策。默认情况下,我们对所有文件的处理操作,都明确规定 Harvey 绝不能利用这些数据进行训练。更进一步,Harvey 的员工也无权查看这些客户数据。我们将此称为「不接触」原则(eyes-off policy)。由于客户数据的高度敏感性,Harvey 的大部分员工都无法访问这些数据。
此外,我们对外部供应商有一份非常严格的白名单。举例来说,我们仅允许使用部署在 Azure 上的模型来改进我们的系统和增强产品功能。选择 Azure 是因为它在企业级市场享有极高的信任度。我们所有的主要客户都在大规模使用 Azure 进行部署,因此他们对 Azure 平台非常信任。这也意味着,即便有新的模型问世,比如 Google 或 Anthropic 推出的新模型,或者社交媒体上宣传的各种新奇工具,我们也不能立即采纳使用。在这方面,我们必须坚持非常严格的策略。
同时,这又回到了产品工程文化的议题上。我们必须确保工程师团队清楚明白,他们不能随意使用未经批准的产品或进行部署,我们在这方面的规章制度非常严格。
此外,我们很早就构建了一个强大的安全团队。举个例子,我们的安全负责人是公司最初的 15 名员工之一,他建立了一整套非常强大的安全体系。当他与银行等机构的首席信息官或首席安全官等高层进行沟通时,对方能够感受到我们的专业性和可靠性,而不是一家随意的初创公司。所以,我认为这些综合性的措施对于赢得客户信任至关重要。
(文:Founder Park)