
新智元报道
新智元报道
【新智元导读】医学世界模型(MeWM)是一种创新的AI系统,能够模拟疾病演变并预测不同治疗方案下的肿瘤变化。通过生成术后肿瘤图像,可以帮助医生在术前评估治疗效果,优化治疗方案,显著提升临床决策的准确性,为精准医疗提供了有力支持。
《黄帝内经》的这句「上医治未病」千年智慧揭示了一个核心真理:最高明的治疗在于预判疾病发展。
香港科技大学(广州)与约翰霍普金斯大学等机构的研究团队合作提出的首个医学世界模型(Medical World Model,MeWM),首次让AI具备了「预演」疾病演变的能力,通过生成式模型模拟不同治疗方案下的肿瘤变化,为临床决策提供可视化依据,将「治未病」理念落地为前沿算法。

论文链接:https://arxiv.org/pdf/2506.02327
代码仓库:https://github.com/scott-yjyang/MeWM
项目主页:https://yijun-yang.github.io/MeWM
Hugging Face:https://huggingface.co/papers/2506.02327
该项目提出三个核心贡献:
-
肿瘤演变模拟器:使用3D扩散模型模拟不同治疗方案下的肿瘤形态演变,在视觉图灵测试中取得优异表现;
-
生存风险预知:通过生存分析模型预测治疗方案的患者预后生存风险,利用逆动力学推理最优治疗方案,方案制定准确率大幅超越传统多模态大模型;
-
临床决策闭环:构建「方案生成-模拟推演-生存评估」的自动化、可视化优化循环,通用支持癌症介入治疗规划。
论文第一作者为杨逸君,共同作者包括计算机视觉奠基人Alan Yuille和美国工程院院士Rama Chellappa,通讯作者为朱磊和陈杰能。

MeWM 引入世界模型(WM)理念,构建「观察–模拟–评估–优化」的闭环路径。
模型以影像观察为输入,通过感知模块生成初始状态,进展预测模型根据不同干预生成未来状态,生存评估结果反馈至策略模块,生成以恢复为目标的动作,反过来影响后续观察与模拟,形成临床决策优化的闭环。

图1:医学世界模型以医学影像为输入,通过感知模块构建初始病情状态,再由疾病进展生成式模型预测在不同治疗条件下的未来病情状态。根据预期恢复情况生成的策略指导治疗决策,并形成闭环反馈,通过逆向建模与生存分析不断优化干预路径。

MeWM在肝癌TACE治疗方案探索中实现了一个由策略生成、动态模拟和风险评估构成的「过去–现在–未来」闭环机制。
策略模型(Policy Model)会在 CT 扫描和以语言为形式的治疗目标的基础上,采用VLM(如GPT-4o)生成满足临床规则的候选治疗组合,包括多种治疗药物与栓塞材料搭配。初始阶段会并行生成B个治疗组合(称为protocol beams),覆盖不同策略空间。
随后,动态模型(Dynamics Model)会针对每个候选方案,利用3D条件扩散模型模拟治疗后肿瘤形态,逐步构建方案执行轨迹,生成的每一组术后肿瘤候选将交由启发式函数评估。
逆动态模型(Inverse Dynamics Model) 在每一步中对所有候选肿瘤图像进行生存风险的打分,基于启发式函数输出风险值,并动态替换掉风险最高的beam方案,从而实现低风险方案的优先保留与高风险方案的迭代优化。
最终,整个探索过程中选出的风险最低组合被作为推荐方案输出,实现了从个体影像出发、结合多步生成与评估的个性化治疗策略搜索流程。

图2: MeWM系统基于术前CT,结合治疗目标生成多组TACE组合,涵盖不同化疗药物与栓塞材料。每组方案通过生成模型预测术后肿瘤反应,并由生存评估模块计算风险得分,最终筛选出最优干预路径。流程支持在真实肝癌场景下实现个体化、数据驱动的治疗决策

MeWM创新性地将「治疗行为」作为条件控制生成,模拟不同组合下肿瘤的真实演化反应:
-
从放疗记录提取结构化治疗动作;
-
将术前影像与动作融合输入3D扩散模型,生成术后图像;
-
通过对比学习提升组合间的区分度与生成的一致性。
在医生图灵测试中,MeWM合成图像被误判为真实图像的比例最高,specificity高达79%,远超现有方法。结构保真性评估指标(FID/LPIPS)亦领先。

图3:肿瘤生成式模型包含三个关键环节:(a) 放疗报告解析与动作生成:由 GPT-4o 与 Deepseek-R1 提取药物与栓塞材料信息,构建治疗组合;(b) 术后肿瘤生成:将动作嵌入与术前 CT 融合输入扩散模型,生成术后肿瘤图像;(c) 组合对比学习(CCL):通过拉近相似方案、区分不同方案,提升模型生成效果的真实度与动作一致性。

为了全面验证MeWM在治疗决策优化任务中的有效性,研究团队分别在私有和公开数据集上进行了系统性实验。
实验首先通过视觉图灵测试验证了生成式模型模拟预后肿瘤形态的真实性,而后分析了生存分析模型根据术前术后图像预测生存风险的准确性。
最后检验了机制在TACE治疗方案筛选上的准确性,对比了多个多模态大模型,并表明各模块的有效性。
术后肿瘤生成效果
在真实性评估中,MeWM经受了由三位放射科医生参与的「图灵测试」。研究共准备了240份CT图像,其中120例为真实术后图像,另外120例由不同模型合成。
医生需在不知情的情况下判断每张图像是真实还是合成,依据是图像中是否存在典型术后特征,如碘油沉积、坏死区与残留活组织的混合表现。
结果显示,三位医生在识别真实图像方面表现稳定,但在识别合成图像方面差异显著:MeWM 所生成图像被误判为真实的比例最高,specificity分别为79%、71%和75%,远优于其他方法,说明其合成结果在外观上最接近真实术后肿瘤。
同时,MeWM在生成质量指标上也表现优异,FID和LPIPS均为所有方法中最低,进一步证明了生成的肿瘤图像在结构细节与视觉真实度上的领先水平。


可靠的启发式函数
在生存风险评估中,MeWM的启发式模型相较传统Cox比例风险模型展现出更高的准确性。
基于公开数据集,实验发现Cox模型难以区分高低风险样本,预测结果过于平滑,MSE为0.3550;而 MeWM模型更贴近真实分布,MSE降至0.2142
进一步的Kaplan-Meier分析显示,MeWM的风险分层能力更强,C-Index提高至 0.752,显著优于影像组学特征驱动的Cox模型。
结果表明,MeWM能有效捕捉术前与术后影像中的风险变化,为治疗效果评估提供更可靠的支持。


革命性的临床辅助决策能力
在TACE治疗方案探索任务中,MeWM 展现出显著的性能优势。
在私有数据集上,其F1-score达到52.38%,较GPT-4o、Claude-3.7和MedGPT等多模态大模型提升超过10%;在公开数据集上,F1-score达到64.08%,接近专业放射科医生(71.43%)的水平,同时在Jaccard、Precision和Recall等关键指标上也全面领先多模态大模型。
不同于仅依赖视觉语言推理的模型,MeWM基于生成的术后CT进行生存分析评分,形成完整的「治疗模拟—效果评估—方案筛选」闭环机制,使得模型能够更准确地判断不同治疗组合带来的潜在疗效差异。

进一步地,将MeWM融入医生的决策流程中,平均可带来13%的F1-score提升,辅助医生在术前更有效地预判治疗结果并优化用药与栓塞材料配置,其推荐结果在多个真实病例中与专家方案高度一致,体现了其在临床辅助决策中的实际应用潜力。
MeWM不仅能「预测治疗结果」,更能「基于未来进行当前优化」。
这不仅是生成模型在医学领域的创新突破,更是世界模型在临床决策中的首次落地实践。
未来,MeWM有望成为医生的第二读图者、术前规划的智能助手,推动临床治疗从经验驱动迈向数据驱动、模拟先行的新纪元。
Medical World Model的发布标志着世界模型在医学领域的一次重要进展,为精准医疗的可视化、可量化、可优化研究提供了新的思路。
(文:新智元)