
作者:田小幺
编辑:李宝珠
转载请联系本公众号获得授权,并标明来源
美国康奈尔大学与再生元制药公司提出图编码混合生存模型(GEMS),通过图神经网络编码患者电子健康记录复杂关系并与生存分析模型结合,识别具有一致特征和生存结局的亚表型。
10 年前,CheckMate 017 试验成果曾震动肿瘤学界。「新英格兰医学杂志(The New England Journal of Medicine)」、「美国医学会杂志(The Journal of the American Medical Association)」等多次报道,接受 PD – 1 抑制剂 Nivolumab 治疗的晚期肺鳞癌患者,生存数据显著提升:中位总生存期从化疗 6 个月升至 9.2 个月,18 个月生存率是化疗组 2 倍。这项研究标志着免疫检查点抑制剂(ICI)时代开启,却也暴露晚期非小细胞肺癌(aNSCLC)患者对免疫治疗反应差异大的问题:试验中部分患者肿瘤持续缓解超 3 年,有的却数月内病情进展,这种治疗反应异质性成为了精准医疗时代难题。
肺癌的复杂性源于其高度异质性。非小细胞肺癌(NSCLC)占肺癌 80%-85%,约 75% 患者确诊即晚期,5 年生存率仅 26.4%。肿瘤微环境生物标志物差异表达、免疫细胞功能状态不一、患者合并症多样,使病理情况复杂。接受 ICI 治疗的患者,因 PD-L1 高表达等获益,也因肿瘤突变负荷低等疗效不佳,还可能因合并症影响治疗方案与预后。
为应对挑战,诊疗方案正从 「一刀切」向「精准分层」过渡。在这一转变过程中,预测医学逐渐崭露头角,其核心目标是整合包括电子健康记录、组学信息在内的多维度数据,从而为每一位患者量身定制最为合适的治疗方案。近年来,随着大规模生物医学数据的不断积累以及机器学习技术的飞速发展,研究人员开始尝试运用无监督机器学习方法,对具有相似特征的患者群体进行聚类分析,以此来预测治疗反应。然而,遗憾的是,传统方法在实际应用中往往存在局限性,难以确保组内患者生存结局的一致性,导致分层结果在临床实践中的应用价值受限。
为解决上述问题,美国康奈尔大学与再生元制药公司提出图编码混合生存模型(GEMS),通过图神经网络编码患者电子健康记录复杂关系并与生存分析模型结合,识别具有一致特征和生存结局的亚表型。研究发现其在预测总生存期(OS)方面优于传统方法,识别出 3 个不同临床特征和生存模式的亚表型,为肺癌精准医疗开辟新路径。
相关研究成果以「Identification of predictive subphenotypes for clinical outcomes using real world data and machine learning」为题,已发表于 Nature Communication。
论文地址:
https://doi.org/10.1038/s41467-025-59092-8
关注公众号,后台回复「GEMS」获取完整 PDF
开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,还提供海量数据集与工具:
https://github.com/hyperai/awesome-ai4s
基于 ConcertAI 大规模真实世界数据集,构建晚期非小细胞肺癌患者队列
该研究利用美国肿瘤学电子健康记录(EHR)数据库中的 ConcertAI Patient360™ NSCLC 数据集,构建了接受一线(1 L)免疫检查点抑制剂(ICI)治疗的晚期非小细胞肺癌(aNSCLC)患者队列。该数据集为基于美国的去识别化、患者层面数据集,从 ConcertAI 网络提取,涵盖超 800 万独特患者,来自 900 余个肿瘤学和血液学癌症诊所,代表美国 50 个州社区和学术实践中治疗的患者,提取数据元素包括疾病复发日期和类型、组织学、PD-L1 检测信息、肿瘤反应、ECOG-PS 和合并症等。
如下图所示,该研究选取 2015 年 1 月至 2023 年 1 月经组织学确诊的非小细胞肺癌(NSCLC)患者(n=17,265)构建回顾性、观察性队列,经纳入 / 排除标准及剔除缺乏有效总生存期(OS)记录患者后,4,666 名患者纳入研究,患者由 104 维向量表示,维度包含人口统计学信息、实验室检查等多方面变量。
根据美国人口普查局定义的临床机构地理区域,研究人员将队列分为模型开发(东北部、南部和西部地区,n=3,225)和验证亚队列(中西部地区,n=1,441),两者人口统计学有相似性,验证亚队列白人患者及社区医疗机构患者比例更高。研究观察期为索引日期前 180 天,总生存期(OS)定义为从索引日期到因任何原因死亡的时间,无进展生存期(PFS)定义为从索引日期到首次真实世界进展事件或因任何原因死亡的时间,旨在通过该数据集相关分析解决晚期非小细胞肺癌患者生存期预测等问题。
数据集标准建立和数据预训练
GEMS 模型构建:基于 GNN 的晚期非小细胞肺癌生存亚表型识别与预测性能验证
在该研究中,GEMS 模型旨在识别与晚期非小细胞肺癌(aNSCLC)患者真实世界总生存期(OS)特征相关的预测性亚表型,其核心架构包括图神经网络编码器(GNN Encoder)、聚类模块(Cluster Module)和混合生存预测器(Mixture Survival Predictor)。
其中,GNN 编码器通过捕捉患者 104 维特征向量(涵盖人口统计学、实验室检查、转移情况等变量)的图结构关系,有效提取高阶患者表征;编码后的表征输入聚类模块,生成具有生存预测价值的亚表型,作为混合模型的基础组件。
GEMS 模型部署和亚表型派生图
模型训练首先以开发队列(n=3,225)为数据支撑,采用一致性指数(c-index)和成对对数秩分数(Pairwise log-rank score)作为评价指标,与 Cox 比例风险回归(CPH)、梯度提升决策树(GBDT)、神经生存聚类(NSC)等传统基线模型及 K 均值、层次聚类等无监督方法进行对比。
实验结果如下表所示,GEMS 在总生存期预测中表现突出,平均 c-index 达 0.665(95% CI: 0.662-0.667),显著高于最佳基线模型 GBDT 的 0.652;对数秩分数 69.17(95% CI: 58.98-76.98),远超 NSC 的 56.23,验证了监督学习框架对数据特征的有效利用。
模型的评分指标对比结果
随后,该研究进一步通过可视化患者及其 GNN 编码器衍生的表示来表征 GNN 编码器对 GEMS 的影响,使用的是均匀流形近似和投影(UMAP)。如下图所示,通过均匀流形近似投影(UMAP)可视化发现,GNN 编码器输出的患者表征空间中,不同总生存期时间的患者群体呈现明显分离,而原始特征空间中各类患者混杂分布,直观体现了图神经网络对复杂特征关系的建模能力。
患者的 UMAP 可视化
其中,图 a: 原始特征的 UMAP 可视化;图 b: 对 GNN 编码器获得特征的 UMAP 可视化
如下图所示,研究人员进一步利用模型识别出 3 个具有显著生存差异的预测性亚表型:亚表型 1(n=1335)以女性比例高(55.50%)、合并症轻、转移负荷低为特征,平均总生存期长达 688 天,止咳药、β 受体阻滞剂等用药率及骨/脑/肾上腺转移发生率均最低;亚表型 2(n=420)生存曲线呈现中期风险升高特征,合并症与转移负荷居中;亚表型 3(n=1420)女性比例 35.21%,平均总生存期仅 321 天,表现为多重用药、高转移率(肝转移 31.20%、骨转移 51.48%)及严重合并症(水电解质紊乱 8.31%、肾脏异常 21.43%),转移-合并症-实验室异常的共发模式最为复杂。
不同亚表型的比较
* 图 a: 每个亚表型总生存期的 Kaplan-Meier 曲线
* 图 b: 各亚型药物给药率的 sunburs 图
* 图 c: 转移(左)、合并症(中)和异常临床特征分类差异的弦图
* 图 d: 不同亚表型的发病率
为了进一步了解不同亚表型之间的不同特征,该研究测试了各亚表型之间每个变量的差异。如下图所示,关键预测因子分析显示,东部肿瘤合作组表现状态(ECOG Performance)和总转移部位数(Total Metastases)是区分亚表型的核心指标。实验室指标方面,中性粒细胞与淋巴细胞比率(NLR)、中性粒细胞与单核细胞与淋巴细胞比率(NMLR)是亚表型 2 的特征性参数,而亚表型 1 与正常白蛋白水平(WBC Counts)、高血细胞比容(Hematocrit)相关,亚表型 3 则与心率(Heart Rate bpm)升高、氧饱和度(Oxygen Saturation)降低、碱性磷酸酶(Alkaline Phosphatase)升高等指标密切关联。
上述结果表明,GEMS 模型不仅实现了对 aNSCLC 患者生存预后的精准分层,更通过亚表型特征剖析,为个体化治疗策略的制定提供了基于真实世界数据的临床决策依据。
最重要的 15 个特征分析
全球肺癌精准诊疗革命:AI 与多组学技术如何改写生存格局?
在肺癌诊疗领域,一场由人工智能(AI)与精准医学驱动的变革正在重塑临床实践。加拿大多伦多大学研究团队开发出 AI 辅助血液检测技术,通过分析循环肿瘤 DNA 中的 EGFR 突变,结合机器学习整合临床数据,有效提升了靶向治疗获益人群识别率,使携带 EGFR 敏感突变的患者能精准接受 EGFR 酪氨酸激酶抑制剂(TKI)治疗,中位无进展生存期显著延长。
* 论文链接:https://pubmed.ncbi.nlm.nih.gov/35624472/
英国伦敦大学学院的「evA.I. 系统」利用 27 维临床数据,准确预测免疫检查点抑制剂(ICI)响应,助力识别耐药人群,从而提升免疫治疗有效率,延长中位总生存期。
论文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC10957591/
在中国,晚期非小细胞肺癌精准诊疗研究中高校与企业创新成果不断涌现。例如,同济大学张鹏教授团队联合中科院团队完成首个国际小细胞肺癌蛋白基因组学图谱研究,整合 112 例样本多维组学数据,发现 HMGB3 蛋白高表达与不良预后的关联,建立基于 ZFHX3 突变状态的免疫治疗获益预测模型,为分子分型指导下的精准治疗开辟新路径。
论文链接:https://doi.org/10.1016/j.cell.2023.12.004
清华大学深圳国际研究生院与深圳市人民医院合作开发「AI + 智能病理」系统,深度学习 3 千余例疑难病例后,能精准鉴别肺低分化癌组织学类型,准确率 97%,缩短靶向治疗决策周期。其团队基于血液糖蛋白标志物的 AI 预测模型可提前 3 年预警肺癌风险,临床验证准确率超 92%,为超早期筛查提供无创方案。
论文链接:https://www.nature.com/articles/s41598-025-98731-4
参考文章:
1.https://mp.weixin.qq.com/s/LBcVbQUpTYRnKZ5I1KY_VA
2.https://doi.org/10.1038/s41467-025-59092-8


戳“阅读原文”,免费获取海量数据集资源!
(文:HyperAI超神经)