首个国产版AlphaFold3发布!大分子预测精度超车,在线平台即开即用,推理成本更是白菜价

白小交 发自 凹非寺
量子位 | 公众号 QbitAI

来了,国内首个对标AlphaFold3的产品——

HelixFold3,来自百度智能云与百度螺旋桨团队。

它在常规生物分子结构预测任务中实现了AlphaFold3媲美水平:尤其RNA分子和共价修饰场景中,精准度上持平或者实现了大幅超越

图注,蓝色为HelixFold3,黄色为AlphaFold3

还有抗原-抗体结构预测任务中,成功率提升至80%+,感觉可以直接拿来研究抗体结合机制的水平。

更关键的一点是,它把使用门槛和成本给打下来了——

支持在线服务,用户只需简单开通,按算力付费(相当于是ChatGPT按照Token付费)

全程零代码操作,也无需担心后续运维。

而且推理速度还很快,数小时完成数千次分子结构预测的那种。

背后的团队来自百度智能云及螺旋桨团队。

可能不为一些人所熟知的是,他们在生命科学领域深耕已久,此前其自研的mRNA序列优化算法LinearDesign登上《Nature》。

这还是国内首家科技企业,登顶世界顶级期刊。

国产模型硬刚AlphaFold3

此次国产模型HelixFold3的发布,技术突破本身的同时,更展现了其强大的应用属性。

首先,能力方面全面对标AlphaFold3,并且实现部分超越。

以最为常见的RNA分子预测、抗原-抗体结构预测两大核心场景为例,这两大场景都有助于下游的药物设计、疾病治疗等研发

在RNA分子预测这一任务中,在CASP 15 RNA数据集上的评测结果显示,HelixFold3的预测精度显著超越了AlphaFold3。

同时在从PDB数据库收集的最新蛋白-RNA复合物结构预测任务中,也展现出更高的准确性。

此外,在多个涉及共价修饰的结构预测任务中,实现基本持平以及超越。

而在抗原-抗体结构预测任务中,HelixFold3在最新的71例PDB抗原抗体结构预测的数据上精度已能媲美AlphaFold3server。

通过指定任意数量的抗原表位氨基酸,HelixFold3在抗原抗体结构预测的精度进一步得到提升,在任意指定15个表位氨基酸的数量后,HelixFold3的成功率进一步提升至80%以上。

其次,在线服务平台即开即用,场景应用丰富

我们都知道,日常中的高精度生物分子结构预测工具,即便像全面开源的AlphaFold3,往往也有较高的使用门槛,需要用户具备较高的技术能力。

现在能够看到,网站上已经支持了不少功能,整个过程全程都零代码,还支持可视化呈现。

比如像支持大分子,包括蛋白质、DNA和RNA的任意侧链修饰。输入分子实体之后,旁边就有配体结构展示。

在设置一些参数约束,比如指定修饰基团和连接位点之类,剩下的工作交给HelixFold3

最终就能得到一个3D结构和相应的参数结果,移动光标还有清晰的点位解释。

相比于AlphaFold3仅支持46种预定义修饰,HelixFold3通过SMILES去定义侧链修饰所能覆盖的化学空间更广,覆盖PDB数据库中超过50%的修饰场景。而AlphaFold3仅支持不到5%,相当于修饰场景扩大十倍。

这样一来,大幅度地扩展了给生命科学从业者们的研究空间,像什么小蛋白/多肽发现、酶改造等等这些具体应用都可以覆盖到。

而除了在线服务,他们也支持API调用,通过API SDK的方式进行批量的推理,做大规模的分析。

最后也是最为硬核的一点就是,用它的话,推理成本可以大大降低,直接让高通量生物信息学应用处理能力UP

现在通用语言的大模型都在讲推理成本,生命科学领域其实挑战更为严峻。

生命语言不仅涉及多模态数据的融合,还涉及在三维空间中进行精准建模,这对计算资源提出了极高的要求。通常情况下,从业者不得不自行购置、部署和维护昂贵且复杂的计算资源,进一步增加了科研成本和技术门槛。

借助百度智能云CHPC平台,通过MSA检索与模型推理方面的性能优化,让推理成本大大降低——在数小时内完成数千次精确的生物分子结构预测,大幅提高了从业者的研究速率。

还有一个更为通俗的例子,在百度云平台上,一条500长度的蛋白推理只需要4元钱。相比于云端租用或者自行部署GPU这种动辄上万乃至百万的成本来看,确实已经低了一个指数级别。

对于从业者来说,你只需提供你的Know-how,剩下的都由HelixFold3帮你算

现在,他们已经在与一些科研机构/CRO药企进行合作,比如去验证湿实验落地的可能性。

传统流程上,非常大通量的湿实验需要好几个月才能锁定候选分子,但现在只需要计算就可以做到初步筛选,然后再拿高潜力的分子去做湿实验,这样整个研发节奏都有大大的提升。

生命科学迎来大模型应用时代

前几个月,AlphaFold斩获诺奖,如今HelixFold3以低门槛但性能完全不输的形态亮相。大模型在生命科学领域,正在加速实现从技术到应用的跨越,迈向了新阶段。

一方面体现在解决行业痛点上,大模型具备一些天然的优势,加速传统产业发展。

比如在药物研发这个场景,行业长期面临着一个「双十困境」,即一款新药研发需要耗时10年、耗资10亿美元。

但现在随着大模型发展,生物医药产业迎来了前所未有的机遇。这体现在药物研发多个研发环节当中。

例如在虚拟筛选阶段,通过大模型技术,可以从780万个分子库中快速筛选出6个潜在活性分子,效率相较于传统人工筛选提升了成千上万倍。

另一方面,更多更前沿的场景有望迎来革命性突破,像HelixFold3这种低门槛产品,会吸引更多跨学科人才参与到生命科学最前沿的课题当中。

此前曾探讨过,通用大模型带来的普遍价值是降本增效,而在生命科学领域,在降本增效这个基础上,还有创新创造的价值。

比如基因编辑、个性化诊疗、合成生物学,乃至整个工业制造,包括农业、食品、化工、材料、能源等行业都有可能被赋能。

在这一浪潮中,百度这一实力玩家不容忽略,他们早已在生命科学领域深耕多年。

在此之前,他们还曾自主研发了文心生物计算大模型系列,包括化合物通用表征模型HelixGEM和HelixGEM-2、蛋白结构分析模型HelixFold、以及单序列蛋白表征模型HelixFold-Single。

这些模型为虚拟筛选、ADMET预测、蛋白质结构预测、mRNA序列设计等提供了便携强大的算法工具。

企业通过百度螺旋桨(PaddleHelix)生物计算平台获取相关服务。目前他们已与多家药企展开深度合作,助力药物研发管线的加速推进。

此外,百度智能云还构建了一整套完整的生命科学解决方案,覆盖从药物研发到下游诊疗场景的全链条。像首个产业界医疗大模型灵医,目前正在加速医疗诊疗全流程的落地,进一步拓展了大模型在生命科学领域的价值边界。

如今,百度HelixFold3重磅升级,不仅提升了模型的精度和效率,也更为行业带来了更多可能性。

大模型在生命科学领域,会朝着更深更广的方向探索。

平台链接:

https://paddlehelix.baidu.com/

论文链接:

https://arxiv.org/pdf/2408.16975

更多详情可戳阅读原文了解更多~

—  —

一键关注 👇 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

(文:量子位)

欢迎分享

发表评论