
作者:李宝珠
编辑:椰椰
转载请联系本公众号获得授权,并标明来源
谷歌 DeepMind 发布 AlphaGenome 模型,可预测数千种与其调控活性相关的分子属性,同时还可以通过比较变异与未变异序列的预测结果,评估基因变异或突变的影响。
谷歌 DeepMind 的 Alpha 系列再添新成员——AlphaGenome,其能够更全面、准确地预测人类 DNA 序列中单个变异或突变,如何影响一系列调控基因的生物过程。
AlphaGenome 模型以长达 100 万个碱基对的 DNA 序列为输入,预测数千种与其调控活性相关的分子属性,同时还可以通过比较变异与未变异序列的预测结果,评估基因变异或突变的影响。该模型建立在 DeepMind 此前的基因组模型 Enformer 的基础上,与专注于蛋白编码区变异分类的 AlphaMissense 模型形成互补。
论文的共同一作 Jun Cheng 在其个人 X 账号上介绍道,「RNA 剪接错误是许多疾病的常见成因,我们首次构建了一个统一模型,能够同时预测 RNA-seq 覆盖度、剪接位点、位点的使用情况,以及它们所形成的具体剪接连接点,从而更全面地描绘剪接结果的全貌」,同时他也指出,AlphaGenome 的重要突破之一便是「能够直接从序列预测剪接连接点,并将其用于变异效应预测」。
Memorial Sloan Kettering 癌症中心 Caleb Lareau 博士也评价道,「这是领域内的一个里程碑。我们首次拥有一个能同时兼具长上下文、单碱基精度和顶级性能的模型,并且覆盖了广泛基因组任务」。目前,DeepMind 已通过 AlphaGenome API 向非商业研究用户开放 preview 版本,并计划在未来正式发布该模型。
* 研究论文链接:
https://go.hyper.ai/w9Jes
基于 100 万 DNA 序列及物种信息,采用类 U-Net 设计
如下图 a 所示,深度学习模型 AlphaGenome 以 1 Mb(百万碱基)DNA 序列及物种信息(人类/小鼠)作为输入,用于预测涵盖不同细胞类型的 5,930 条人类基因组轨迹或 1,128 条小鼠基因组轨迹,覆盖 11 种输出类型,包括:
* 基因表达(RNA-seq、CAGE、PRO-cap)
* 详细的剪接模式(剪接位点、剪接位点使用频率、剪接连接点)
* 染色质状态(DNase、ATAC-seq、组蛋白修饰、转录因子结合)
* 染色质接触图
AlphaGenome 模型概览
在模型架构方面,AlphaGenome 采用了类 U-Net 的主干架构设计,如下图 a 所示,能够高效地将输入序列处理为两种类型的序列表示:
* 一维嵌入(1-dimensional embeddings,分辨率为 1 bp 和 128 bp):表示线性基因组序列,用于生成基因组轨迹的预测;
* 二维嵌入(2-dimensional embeddings,分辨率 2048 bp):表示基因组片段之间的空间相互作用,用于预测成对的接触图。
AlphaGenome 模型总览
该模型的卷积层用于建模局部序列模式,以支持精细预测;而 Transformer 模块则用于建模更长距离的依赖关系,比如增强子与启动子之间的相互作用。模型可以在完整的 1Mb 序列上进行以单碱基为单位的训练,这得益于分布式的序列并行技术,能够运行在 8 个互联的 TPUv3 设备上。
在模型训练方面,研究人员采用了两阶段训练,即预训练(Pre-training)与蒸馏(Distillation)。其中,在预训练阶段,其使用已有的实验数据来训练两类模型,如下图 b 所示:
* 折叠特定模型(fold-specific models):采用四折交叉验证的方式进行训练,即在参考基因组中使用 3/4 的区段进行训练,将剩下的 1/4 留作验证和测试。这些模型用于评估 AlphaGenome 在未见过的参考基因组区段上预测基因组轨迹的泛化能力。
* 全折叠模型(all-folds models):在参考基因组的所有可用区段上进行训练,作为下一蒸馏阶段的 Teachers 模型,如下图 c 所示。
AlphaGenome 训练流程
在蒸馏阶段,研究人员训练了一个共享预训练架构的 Student 模型,其目标是利用经过随机增强处理的输入序列,预测出多个全折叠教师模型的综合输出。以往研究表明,这种蒸馏模型能够在一个模型实例中同时实现更强的鲁棒性和更高的变异效应预测(VEP)准确性。
得益于这一设计,该 Student 模型可以通过单次设备调用完成对所有模态和细胞类型的变异效应预测任务。在 NVIDIA H100 GPU 上,每个变异的预测用时不到一秒,使其在大规模变异效应预测中相比传统多模型集成方法表现出极高的效率。
AlphaGenome 在各类基因组预测任务中表现领先
据 DeepMind 介绍,AlphaGenome 相较现有方法具备以下独特优势:
长序列上下文 + 单碱基分辨率
AlphaGenome 可分析长达百万碱基的 DNA 序列,并在单碱基级别做出预测。这使其能覆盖调控基因的远程区域,同时捕捉精细的生物学细节。而此前的模型往往在执着于序列长度与预测精度之间平衡,限制了可建模的模态范围和准确度。AlphaGenome 的技术突破打破了这一局限,其训练仅用原 Enformer 模型一半的计算资源,仅需 4 小时即可完成一次训练。
全面的多模态预测能力
高分辨率 + 长输入序列的组合,使 AlphaGenome 能预测史无前例的多样调控模态,为研究人员提供更系统的基因调控信息。
高效的变异打分
AlphaGenome 可在一秒钟内对变异影响进行打分,通过比较变异前后序列的预测差异,并针对不同模态使用最合适的总结方法,它能快速、准确地评估基因变异对分子机制的潜在影响。
新颖的剪接位点建模
AlphaGenome 创新性地实现了直接基于序列预测 RNA 剪接连接点的位置及其表达水平。许多罕见遗传病(如脊髓性肌萎缩症、某些囊性纤维化类型)与剪接错误有关,该能力为相关病因研究提供了新工具。
基准测试表现优异
AlphaGenome 在各类基因组预测任务中表现领先。例如预测 DNA 结构接近区域、变异对基因表达的影响、对剪接模式的改变等。在 24 项 DNA 序列预测评估的 22 项中击败现有最佳模型,在 26 项变异效应任务的 24 项中达到或超过当前最优模型。更重要的是,其也是唯一一个可对所有评估模态进行联合预测的模型,展示了极强的通用性。
具体而言,为了评估 AlphaGenome 的模型性能,研究人员首先考察了其对未见基因组区段的泛化能力,这是实现高质量变异效应预测的前提。他们共进行了 24 项基因组轨迹预测评估,涵盖了模型所预测的全部 11 种模态。在交叉验证折外评估(out-of-fold evaluations) 中,研究人员使用了预训练的折叠特定 AlphaGenome 模型,并将其预测结果与每项任务中当前最强的外部模型进行比较。
结果显示,AlphaGenome 在这 24 项评估中的 22 项上表现优于对应的外部模型,如下图 d 所示。值得注意的是,在细胞类型特异的基因表达变化(log-fold change, LFC)预测任务中,AlphaGenome 相比另一款多模态序列模型 Borzoi 展现了 +17.4% 的相对性能提升,如下图 e 所示。
此外,AlphaGenome 也在各任务上超越了专注于单一模态的专业模型。例如:
在染色质接触图(contact map)预测中,AlphaGenome 超过了 Orca 模型,表现为接触图 Pearson 相关系数提升 +6.3%,细胞类型特异差异提升 +42.3%,如下图 d 所示;
在转录起始点轨迹预测中,AlphaGenome 优于 ProCapNet,整体计数 Pearson 相关系数提升 +15%;
在染色质可及性预测中,AlphaGenome 优于 ChromBPNet,在 ATAC-seq 上提升 +8%,在 DNase-seq 上提升 +19%。

* 左图 d:AlphaGenome 在不同模态和分辨率的基因组轨迹预测任务中的相对性能提升(以 % 表示),PA 表示多聚腺苷酸化(polyadenylation)。
* 右图 e:AlphaGenome 在部分变异效应预测任务中的相对性能提升。
行业里程碑获高度评价
AlphaGenome 这一重磅模型的推出,从消息发布之时就开始持续在推特上引发各界热议。
DeepMind 研究副总裁 Pushmeet Kohli 介绍道,「AlphaGenome 通过预测 DNA 变异的影响,提供了人类非编码基因组的全面观点。它将加深我们对疾病生物学的理解,并开辟新的研究途径」。评论区,除了惊叹夸赞之外,大家更加关心如何使用。

一名来自爱丁堡大学遗传学的博士生称,「这个模型或许可以彻底重新定义我们发现致病突变和药物靶点的方式,它意义非凡」。
一位生物科学领域的评论员称「AlphaGenome 不仅仅是单个基因,而是整个调控基因组。如果把 DNA 比作是代码,而 AlphaGenome 就是由代码组成的软件」。
在实际应用方面,AlphaGenome 具有广泛的科研潜力,例如面向疾病机制研究,其可更精确地预测基因变异对调控过程的影响,识别潜在致病变异,揭示新靶点,尤其适合研究具有显著效应的罕见变异。在合成生物学领域,其能够指导特定调控功能的 DNA 设计,例如只在神经细胞中激活目标基因。在基础基因组学研究中,其可以加快关键功能元件的定位与角色定义,帮助识别调控特定细胞类型功能所需的「核心指令」。
伦敦大学学院 Marc Mansour 教授评价道,「在大规模识别非编码变异的作用时,AlphaGenome 提供了关键的拼图碎片,让我们能更好地理解癌症等复杂疾病」。目前,AlphaGenome 以面向非商业用途的研究开放,期待学术界基于此有更多成果产出。


戳“阅读原文”,免费获取海量数据集资源!
(文:HyperAI超神经)