LLM医疗推理能力深入剖析:你可以相信DeepSeek医生么?

导读

推理增强大语言模型(如 DeepSeek-R1 和 OpenAI-o3)在医疗领域的表现究竟如何?最新研究给出了答案!研究团队推出 MedR-Bench,一个专注于医疗推理的评估基准,涵盖 1,453 个病例,涉及 13 个身体系统和 10 种专科疾病,全面覆盖常见病与罕见病。

与以往评测不同,本次研究不仅关注模型的最终结果,还首次对模型的推理链条进行了多维度评估!通过三大临床阶段(评估建议、诊断决策、治疗规划),研究团队深入剖析了五款顶尖推理大模型的表现。结果显示,模型在简单诊断任务上准确率超过 85%,但在复杂任务上仍有不足。尽管推理过程的事实性得分高达 90% 以上,但关键推理步骤的缺失问题显著。

更值得关注的是,开源模型如 DeepSeek-R1 正快速追赶闭源模型,展现出推动普惠医疗的巨大潜力!未来,医疗 AI 的发展将更加注重推理过程的完整性与逻辑性


论文链接:https://arxiv.org/abs/2503.04691

代码仓库:https://github.com/MAGIC-AI4Med/MedRBench



评测框架

评测设置:全面评估医疗大模型的三大核心能力

为了全面评估大语言模型在医疗领域的能力,我们设计了一个多功能的评测框架,涵盖评估建议诊断决策治疗规划三大核心临床任务。以下是各任务的详细设置:

1. 评估建议 (Examination Recommendation)

我们模拟了一个患者到医院寻求进一步医疗评估的场景,要求临床大模型推荐一系列评估项目(如实验室检查或影像学检查),以帮助后续诊断或治疗。输入为病例摘要(排除辅助检查部分),真实世界的辅助检查结果作为参考标准。我们还设计了一个由大模型驱动的「患者代理」,基于特定病例扮演患者角色,评测模型通过与代理交互推荐评估项目并获取结果。
为进一步细化评测,我们定义了两种子场景:

  • 单轮评估建议 (1-turn Examination Recommendation):
    模型仅允许在一轮问答中查询评估结果。

  • 自由轮次评估建议 (Free-turn Examination Recommendation):
    模型可持续查询信息,直到认为信息足够支持后续诊断决策。

2. 诊断决策 (Diagnostic Decision-making)

该任务旨在评估模型是否能基于给定信息做出准确诊断。输入为病例摘要,诊断结果作为标准答案。模型需根据提供的信息给出清晰、准确的诊断。

考虑到辅助检查信息的充分性对最终诊断的影响,我们进一步定义了三种子场景(从难到易):

  • 基于单轮评估建议的诊断 (Diagnostic Decision-making after 1-turn Examination Recommendation):模型仅能基于单轮评估建议中查询到的信息进行诊断,缺失关键信息可能影响表现。

  • 基于自由轮次评估建议的诊断 (Diagnostic Decision-making after Free-turn Examination Recommendation):模型可使用自由轮次评估建议中获取的更全面信息进行诊断。

  • 全信息诊断 (Oracle Diagnostic Decision-making):模型可使用所有真实记录的辅助检查证据进行诊断。

3. 治疗规划 (Treatment Planning)

除了上述任务,我们还评估模型是否能提出合适的治疗计划。输入为病例摘要中的所有基本信息,真实世界的治疗计划作为参考标准。模型需提供与标准答案一致的治疗计划,或符合相关临床指南的替代方案。值得注意的是,与诊断任务不同,治疗规划仅采用全信息设置 (Oracle),即输入包括所有真实病例摘要(如患者基本信息、辅助检查结果和诊断结果),因为这一设置已足够具有挑战性,无需进一步增加难度。

通过这一全面的评测框架,我们深入剖析了大语言模型在医疗领域的实际能力与局限性,为未来的改进提供了明确方向。

图 1:展示了我们的评测设置,涵盖评估建议、诊断决策和治疗规划三大核心临床任务,全面评估模型在实际医疗场景中的应用能力

我们进一步展示多个评测设置的实际对话轮,如图 3 所示,其中诊断决策 (Diagnostic Decision-making) 的一轮设置和自由轮的设置。

图 2:展示了我们不同的测试设置,包括单轮评估建议,自由轮次评估建议,基于单轮评估建议的诊断, 基于自由轮评估建议的诊断,全信息诊断,和治疗规划。

评测指标:从推理过程到最终结果,全面量化模型表现

为了客观评估大语言模型 (LLMs) 在医疗任务中的表现,我们设计了六大评测指标,涵盖模型的推理过程最终输出。以下是这些指标的简要介绍:

1. 推理过程指标

由于推理过程主要以自由文本形式呈现,评估难度较大,我们开发了一个基于大模型的推理评估系统 (Reasoning Evaluator)。该系统能够分解、结构化并验证推理步骤,识别哪些步骤是有效的推理,哪些是重复或无意义的,并通过在线医学资源验证有效步骤是否符合医学知识或指南。如果有真实的医学推理参考,系统还会进一步评估是否涵盖了所有相关步骤。基于此,我们定义了以下推理指标:

  • 效率 (Efficiency):评估每个推理步骤是否为最终答案提供了新的见解,而非简单重复或重述之前的结果。计算方式为有效推理步骤占全部推理步骤的比例。

  • 事实性 (Factuality):评估有效推理步骤是否符合医学指南或事实知识。类似于「精确率」,计算事实正确的步骤占所有有效推理步骤的比例。

  • 完整性 (Completeness):衡量生成的推理内容中是否涵盖了原始病例报告中明确标注的推理证据。类似于「召回率」,计算提及的推理步骤占所有真实推理步骤的比例。该指标假设原始病例报告可能遗漏部分推理步骤,但包含的步骤代表了必要的推理过程。

2. 最终输出指标

对于模型的最终生成结果,我们使用以下指标:

  • 准确率 (Accuracy):适用于诊断和治疗任务,评估模型的最终答案是否与原始病例报告中的真实结果完全匹配。

  • 精确率与召回率 (Precision & Recall):适用于评估建议任务,模型会生成一份推荐检查列表。我们通过对比模型生成的列表与真实记录的检查列表,计算列表级别的“精确率与召回率”,以衡量推荐的正确性。

通过这六大指标,我们不仅关注模型的最终答案,还深入剖析其推理过程的质量,为医疗大模型的性能提供了全面、多维度的量化评估。

图 3:展示了使用我们对推理过程和最终生成结果的评估指标

推理过程评测智能体系统:让 AI 的推理能力「有据可查」

在医疗领域,大语言模型 (LLMs) 的推理能力至关重要。为了客观评估模型生成的自由文本推理过程,我们开发了一个基于 GPT-4o 的推理评估系统 (Reasoning Evaluator),能够从效率、事实性和完整性三个维度全面量化推理质量。以下是该系统的核心设计:

1. 推理步骤分类

系统首先对模型生成的推理步骤进行分类,将其划分为以下四类:

  • 引用 (Citation): 仅重复或引用输入信息,未提供新见解。

  • 重复 (Repetition): 重复之前推理步骤中已得出的结论。

  • 冗余 (Redundancy): 与最终决策无关,对推理过程无实质性贡献。

  • 有效推理 (Reasoning): 提供新见解并对最终决策有贡献。

只有被分类为「有效推理」的步骤才会进入后续评估。

2. 事实性验证

对于每个有效推理步骤,系统会生成一系列搜索关键词,并通过外部搜索引擎(如 Google、Bing、DuckDuckGo)检索相关医学知识或指南。系统会总结检索结果,并判断推理步骤是否与事实一致。这一过程确保了推理内容的事实性

3. 完整性评估

如果提供了真实的推理参考(如病例报告中的推理过程),系统会将其分解为多个步骤,并与模型生成的推理步骤进行对比,评估模型是否涵盖了所有关键推理证据。这一过程量化了推理过程的完整性

4. 核心指标计算

基于上述评估结果,系统计算出以下三大指标:

  • 效率 (Efficiency): 有效推理步骤占总推理步骤的比例,衡量推理过程是否高效。

  • 事实性 (Factuality): 有效推理步骤中符合医学知识或指南的比例,类似于「精确率」。

  • 完整性 (Completeness): 模型生成的推理步骤中涵盖真实推理证据的比例,类似于「召回率」。

图 4:推理评估器从效率、事实性和完整性三个维度对推理质量进行量化评估。同时,结合外部搜索引擎的辅助,能够更精准地判断推理步骤的正确性,为智能决策提供可靠支持。

主要结果

图 5:在柱状图中对比了五款大语言模型在评估建议、诊断决策和治疗规划三大临床任务中的表现。特别地,针对治疗规划任务,我们增加了对罕见病病例的对比分析。由于罕见病在其他任务中的表现与整体病例差异较小,相关结果详见论文附录。此外,在雷达图中从多个维度对比了模型在推理过程中的推理质量,包括效率、事实性和完整性三个维度。

MedR-Bench数据构建

基于 PMC 开放获取子集 (PMC Open Access Subset) 中已发表的病例报告,我们构建了一个包含 1,453 个患者病例的数据集。其中,957 个病例与诊断相关,构成 MedR-Bench-Diagnosis 子集;496 个病例与治疗相关,构成 MedR-Bench-Treatment 子集。所有病例均按照以下要素系统化组织:

  • 病例摘要:记录患者的所有相关信息。对于诊断病例,包括以下关键项:患者基本信息(如年龄、性别)、主诉、现病史、既往病史、个人及家族史、体格检查、辅助检查(如实验室和影像学检查)。对于治疗病例,额外考虑过敏史、社会史和诊断结果等因素,因为这些可能影响药物选择或手术建议。所有内容直接来源于原始病例报告,若某项未提及,则标记为「未提及」。

  • 推理过程:从原始病例报告的讨论或分析段落中提取并总结,捕捉人类在做出诊断决策或制定治疗计划时的推理过程。对于诊断,重点关注鉴别诊断过程,概述系统确认最终诊断的步骤和考虑因素;对于治疗,则强调治疗目标的确定,并解释所选治疗方法如何有效实现这些目标。

  • 诊断或治疗结果:直接记录原始病例报告中的最终决策。对于诊断,记录一系列已识别的疾病概念;对于治疗,则包括推荐治疗计划的自由文本描述。


图 6:数据构建流程:从 PMC-OA 子集的原始病例报告出发,经过筛选与重组,最终形成结构化患者病例库,为测试场景提供高质量数据支持。

此外,每个病例还根据 MedlinePlus 的「健康主题」分类标准,标注了其涉及的身体系统疾病与病症,并识别是否与罕见病相关。因此,MedR-Bench-Diagnosis 和 MedR-Bench-Treatment 两个子集可进一步抽样,分别生成仅包含 491 个和 165 个罕见病相关病例的子集。

图 7:展示数据分布情况,从身体系统和疾病与病症两个维度,对 957 例诊断相关病历和 496 例治疗相关病例进行了系统分类。

讨论与分析

本文旨在评估医疗领域最新的增强推理大语言模型,重点关注其最终生成结果与推理过程。相较于以往医疗大语言模型评估研究只关注于最后的结果正确性,我们更着重于量化其中间自由文本推理过程的质量。本研究主要贡献包括三个方面:

  1. 全新的基于真实病例的多样化推理评估数据集

    我们推出了 MedR-Bench 数据集,包含 1,453 例源自已发表病例报告的结构化患者案例,涵盖 13 个医学人体系统和 10 类疾病专科,包含诊疗任务中的常见病与罕见病。与传统选择题数据集不同,MedR-Bench 更贴近真实医疗场景。所有案例均附有高质量的从临床病例报告中提取的推理依据从而支持对推理过程的深度评估参考。
  2. 覆盖诊疗全流程的评估框架

    本基准测试从三个关键临床阶段评估大语言模型:检查推荐、诊断决策和治疗方案制定。这一完整框架模拟患者就医流程,可精准定位大语言模型在临床决策支持中的优势与不足。
  3. 多维度的客观评价指标体系

    我们采用综合指标量化模型表现。除评估最终输出外,创新性提出 Reasoning Evaluator 系统,对自由文本推理进行定量分析。通过自动验证机制,确保推理内容符合权威医学证据或参考标准。

基于 MedR-Bench 的评估结果,我们总结了如下的主要发现:

  • 现有大语言模型在关键信息充分时可完成诊断

    当获得充分结构化信息时,目前推理增强的大语言模型均展现出了较强的诊断能力。我们发现模型擅长综合多专科医学检查结果,生成清晰准确的诊断。虽有偶发错误,但整体结果令人鼓舞,显示其融入临床工作流程的潜力,标志着大语言模型医疗应用的重要进展。
  • 检查推荐与治疗方案制定更具挑战

    尽管在信息完整时目前的大模型能有效诊断,但大语言模型难以主动推荐获取诊断线索的必要检查。这一关键局限影响重大,在临床实践中,医生往往深度依赖类似的检查处理决策来逐步明确诊断结论。相较于推论,这种能力在实际应用中更为常用。在治疗方案的制定上,目前的大语言模型同样展示了不足。这一现象可能源于关键信息充分时的诊断与之前常用的选择题数据集有高度的相似性,而后者已被广泛优化,相对的剩下的检查推荐与治疗方案制定任务则并不在常见的测评中导致了模型能力欠优化。这表明尽管大语言模型掌握基础医学知识并能综合检查结果,但仍未完全适应动态真实的医疗环境,突显理论知识与实践应用的差距,提示临床应用需保持人工监督,并指明未来改进方向。
  • 医疗领域推理能力仍有提升空间

    本研究从推理效率性、医学事实性与逻辑完整性三个维度展开系统性评估,结果显示:在效率性方面,大语言模型展现出良好的推理效能,除 Qwen-QwQ 外,各模型系列均达成 90% 以上的效率评分,表明多数推理步骤能为最终决策提供有效支撑。在事实性维度,虽然模型生成的推理内容整体符合医学知识图谱,但仍存在局部事实性偏差。尽管此类偏差在日常场景中尚可接受,但在医疗决策场景中需保持高度警惕——临床实践中可能因过度依赖模型的推理逻辑而引发误诊风险,故事实性仅达基础合格标准,亟待通过知识增强与验证机制优化来提升安全性。最值得关注的是逻辑完整性表现:多数模型的参考推理依据召回率不足 90%,仅 DeepSeek-R1 突破该阈值(达 92.3%)。这揭示了一个关键问题——大语言模型虽能进行广而范的医学分析,每一步也都确实有价值,但却往往遗漏临床专家认定的核心推理节点。综合评估表明,当前医疗大语言模型的推理质量仅能满足基本临床需求,仍然需要进一步的提升。
  • 罕见病上模型性能有所下降但整体保持稳健

    本研究针对罕见病诊疗场景的专项评估揭示:在治疗方案生成环节,大语言模型会受到罕见病例的影响导致性能下降,这与其数据稀缺性、病理复杂性等固有挑战密切相关。但值得注意的是,模型在诊断、检查推荐等上游环节维持了与常见病相当的精度水平,且在治疗场景种,模型的罕见病性能表现也实际上下降不多,维持了一个稳健的表现。这些证据共同表明,当前大语言模型,通过广而普的大规模文本预训练,事实上已构建起系统性的医学认知框架,其知识表征体系具备良好的疾病泛化能力,并不会因为疾病的罕见导致整个模型的崩溃式性能下降。
  • 开源与闭源模型差距持续缩小

    值得关注的是,新一代开源大语言模型(如 DeepSeek-R1)正逐步逼近商用闭源模型性能。开源模型因其可本地化部署的特性,能有效规避患者隐私泄露风险,特别适合临床应用场景。这一趋势有助于推动更多大语言模型医疗应用落地,同时避免医疗资源垄断风险

最后我们需要指出本研究的局限性:首先,尽管采用最新病例报告,但因为部分最新模型并没有披露它们使用的数据的截至时间,也没有明确训练细节,我们仍然无法完全排除所有案例被纳入模型训练的可能性。其次,我们的测试病例总的来说还是通过大语言模型自动整理转化的,虽然该过程有原始病例报告作为参考,仍可能存在 GPT-4o 转换过程引入的错误。第三,在本研究,我们设计的评估指标虽力求自动化、客观化、可扩展,但仍然无法完全替代人工验证,后者虽成本较高却不可或缺。

为应对这些局限,我们已公开全部代码、评估案例及各类模型响应,供相关研究人员一同参考,分析与拓展。我们真诚的希望并感谢更多临床专家能够参与大语言模型生成病例的评审验证工作,共同推进医疗人工智能发展!

(文:HyperAI超神经)

欢迎分享

发表评论