MeWM团队 投稿
量子位 | 公众号 QbitAI
医学领域,也有自己的世界模型了。
来自香港科技大学(广州)、约翰霍普金斯大学等机构的学者联合提出了提出医学世界模型(Medical World Model, MeWM),赋予了AI“预演”疾病发展的能力。
MeWM可以基于临床治疗决策,模拟未来肿瘤演化过程,可以为个性化治疗提供可视化、可评估、可优化的辅助。

具体来说,MeWM主要有三大核心功能:
-
肿瘤演变模拟器:使用3D扩散模型模拟不同治疗方案下的肿瘤形态演变; -
生存风险预知:通过生存分析模型预测治疗方案的患者预后生存风险,利用逆动力学推理最优治疗方案; -
临床决策闭环:构建「方案生成-模拟推演-生存评估」的自动化、可视化优化循环,通用支持癌症介入治疗规划。
什么是医学世界模型?
MeWM引入了世界模型(WM)的理念,构建了“观察–模拟–评估–优化”的闭环路径。
模型以影像观察为输入,通过感知模块生成初始状态,进展预测模型根据不同干预生成未来状态。
生存评估结果反馈至策略模块,生成以恢复为目标的动作,反过来影响后续观察与模拟,形成临床决策优化的闭环。
其中,策略模型(Policy Model)会在CT扫描和以语言为形式的治疗目标的基础上,采用视觉大模型(如GPT-4o)生成满足临床规则的候选治疗组合,包括多种治疗药物与栓塞材料搭配。
初始阶段会并行生成B个治疗组合(称为protocol beams),覆盖不同策略空间。
随后,动态模型(Dynamics Model)会针对每个候选方案,利用3D条件扩散模型模拟治疗后肿瘤形态,逐步构建方案执行轨迹。生成的每一组术后肿瘤候选将交由启发式函数评估。
在这一过程当中,逆动态模型(Inverse Dynamics Model)还会在每一步中对所有候选肿瘤图像进行生存风险的打分。
基于启发式函数输出风险值,并动态替换掉风险最高的beam方案,从而实现低风险方案的优先保留与高风险方案的迭代优化。
最终,整个探索过程中选出的风险最低组合被作为推荐方案输出,实现了从个体影像出发、结合多步生成与评估的个性化治疗策略搜索流程。
下图展示了MeWM系统基于术前CT,结合治疗目标生成的多组TACE组合,涵盖了不同化疗药物与栓塞材料。
每组方案通过生成模型预测术后肿瘤反应,并由生存评估模块计算风险得分,最终筛选出最优干预路径。流程支持在真实肝癌场景下实现个体化、数据驱动的治疗决策。
模拟肿瘤演化,生成真实术后影像
MeWM创新性地将“治疗行为”作为条件控制生成,模拟不同组合下肿瘤的真实演化反应,具体过程如下:
-
放疗报告解析与动作生成:由GPT-4o与Deepseek-R1提取药物与栓塞材料信息,构建治疗组合; -
术后肿瘤生成:将动作嵌入与术前CT融合输入扩散模型,生成术后肿瘤图像; -
组合对比学习(CCL):通过拉近相似方案、区分不同方案,提升模型生成效果的真实度与动作一致性。

在医生图灵测试中,MeWM合成图像被误判为真实图像的比例最高,specificity高达79%,远超现有方法。结构保真性评估指标(FID/LPIPS)亦领先。
真实场景下的临床价值验证
为了全面验证MeWM在治疗决策优化任务中的有效性,研究团队分别在私有和公开数据集上进行了系统性实验。
实验首先通过视觉图灵测试验证了生成式模型模拟预后肿瘤形态的真实性,而后分析了生存分析模型根据术前术后图像预测生存风险的准确性。最后检验了机制在TACE治疗方案筛选上的准确性,对比了多个多模态大模型,并表明各模块的有效性。
术后肿瘤生成效果
研究共准备了240份CT图像,其中120例为真实术后图像,另外120例由不同模型合成。
医生需在不知情的情况下判断每张图像是真实还是合成,依据是图像中是否存在典型术后特征,如碘油沉积、坏死区与残留活组织的混合表现。
结果显示,三位医生在识别真实图像方面表现稳定,但在识别合成图像方面差异显著:
MeWM所生成图像被误判为真实的比例最高,specificity 分别为79%、71%和75%,远优于其他方法,说明其合成结果在外观上最接近真实术后肿瘤。

同时,MeWM在生成质量指标上也表现优异,FID和LPIPS均为所有方法中最低,进一步证明了生成的肿瘤图像在结构细节与视觉真实度上的领先水平。

可靠的启发式函数
在生存风险评估中,MeWM的启发式模型相较传统Cox比例风险模型展现出更高的准确性。
基于公开数据集,实验发现Cox模型难以区分高低风险样本,预测结果过于平滑,MSE为0.3550;
而 MeWM模型更贴近真实分布,MSE降至0.2142。
进一步的Kaplan-Meier分析显示,MeWM的风险分层能力更强,C-Index提高至 0.752,显著优于影像组学特征驱动的Cox模型。
结果表明,MeWM能有效捕捉术前与术后影像中的风险变化,为治疗效果评估提供更可靠的支持。

临床辅助决策能力
在TACE治疗方案探索任务中,MeWM展现出显著的性能优势。
在私有数据集上,其F1-score达到52.38%,较GPT-4o、Claude-3.7和MedGPT等多模态大模型提升超过 10%;
在公开数据集上,F1-score达到64.08%,接近专业放射科医生(71.43%)的水平,同时在Jaccard、Precision和 Recall等关键指标上也全面领先多模态大模型。
不同于仅依赖视觉语言推理的模型,MeWM基于生成的术后CT进行生存分析评分,形成完整的“治疗模拟—效果评估—方案筛选”闭环机制,使得模型能够更准确地判断不同治疗组合带来的潜在疗效差异。
进一步地,将MeWM融入医生的决策流程中,平均可带来13%的 F1-score提升,辅助医生在术前更有效地预判治疗结果并优化用药与栓塞材料配置。
其推荐结果在多个真实病例中与专家方案高度一致,体现了其在临床辅助决策中的实际应用潜力。

作者简介
本文第一作者为杨逸君,来自香港科技大学(广州)。
共同作者包括计算机视觉奠基人Alan Yuille和美国工程院院士Rama Chellappa,通讯作者为朱磊和陈杰能。
论文链接:
https://arxiv.org/pdf/2506.02327
代码仓库:
https://github.com/scott-yjyang/MeWM
项目主页:
https://yijun-yang.github.io/MeWM
Hugging Face:
https://huggingface.co/papers/2506.02327
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
🌟 点亮星标 🌟
(文:量子位)