白小交 发自 凹非寺
量子位 | 公众号 QbitAI
来了,国内首个对标AlphaFold3的产品——
HelixFold3,来自百度智能云与百度螺旋桨团队。
它在常规生物分子结构预测任务中实现了AlphaFold3媲美水平:尤其RNA分子和共价修饰场景中,精准度上持平或者实现了大幅超越。
△图注,蓝色为HelixFold3,黄色为AlphaFold3
还有抗原-抗体结构预测任务中,成功率提升至80%+,感觉可以直接拿来研究抗体结合机制的水平。
更关键的一点是,它把使用门槛和成本给打下来了——
支持在线服务,用户只需简单开通,按算力付费(相当于是ChatGPT按照Token付费)。
全程零代码操作,也无需担心后续运维。
而且推理速度还很快,数小时完成数千次分子结构预测的那种。
背后的团队来自百度智能云及螺旋桨团队。
可能不为一些人所熟知的是,他们在生命科学领域深耕已久,此前其自研的mRNA序列优化算法LinearDesign登上《Nature》。
这还是国内首家科技企业,登顶世界顶级期刊。
国产模型硬刚AlphaFold3
此次国产模型HelixFold3的发布,技术突破本身的同时,更展现了其强大的应用属性。
首先,能力方面全面对标AlphaFold3,并且实现部分超越。
以最为常见的RNA分子预测、抗原-抗体结构预测两大核心场景为例,这两大场景都有助于下游的药物设计、疾病治疗等研发。
在RNA分子预测这一任务中,在CASP 15 RNA数据集上的评测结果显示,HelixFold3的预测精度显著超越了AlphaFold3。
同时在从PDB数据库收集的最新蛋白-RNA复合物结构预测任务中,也展现出更高的准确性。
此外,在多个涉及共价修饰的结构预测任务中,实现基本持平以及超越。
而在抗原-抗体结构预测任务中,HelixFold3在最新的71例PDB抗原抗体结构预测的数据上精度已能媲美AlphaFold3server。
通过指定任意数量的抗原表位氨基酸,HelixFold3在抗原抗体结构预测的精度进一步得到提升,在任意指定15个表位氨基酸的数量后,HelixFold3的成功率进一步提升至80%以上。
其次,在线服务平台即开即用,场景应用丰富。
我们都知道,日常中的高精度生物分子结构预测工具,即便像全面开源的AlphaFold3,往往也有较高的使用门槛,需要用户具备较高的技术能力。
现在能够看到,网站上已经支持了不少功能,整个过程全程都零代码,还支持可视化呈现。
比如像支持大分子,包括蛋白质、DNA和RNA的任意侧链修饰。输入分子实体之后,旁边就有配体结构展示。
在设置一些参数约束,比如指定修饰基团和连接位点之类,剩下的工作交给HelixFold3。
最终就能得到一个3D结构和相应的参数结果,移动光标还有清晰的点位解释。
相比于AlphaFold3仅支持46种预定义修饰,HelixFold3通过SMILES去定义侧链修饰所能覆盖的化学空间更广,覆盖PDB数据库中超过50%的修饰场景。而AlphaFold3仅支持不到5%,相当于修饰场景扩大十倍。
这样一来,大幅度地扩展了给生命科学从业者们的研究空间,像什么小蛋白/多肽发现、酶改造等等这些具体应用都可以覆盖到。
而除了在线服务,他们也支持API调用,通过API SDK的方式进行批量的推理,做大规模的分析。
最后也是最为硬核的一点就是,用它的话,推理成本可以大大降低,直接让高通量生物信息学应用处理能力UP。
现在通用语言的大模型都在讲推理成本,生命科学领域其实挑战更为严峻。
生命语言不仅涉及多模态数据的融合,还涉及在三维空间中进行精准建模,这对计算资源提出了极高的要求。通常情况下,从业者不得不自行购置、部署和维护昂贵且复杂的计算资源,进一步增加了科研成本和技术门槛。
借助百度智能云CHPC平台,通过MSA检索与模型推理方面的性能优化,让推理成本大大降低——在数小时内完成数千次精确的生物分子结构预测,大幅提高了从业者的研究速率。
还有一个更为通俗的例子,在百度云平台上,一条500长度的蛋白推理只需要4元钱。相比于云端租用或者自行部署GPU这种动辄上万乃至百万的成本来看,确实已经低了一个指数级别。
对于从业者来说,你只需提供你的Know-how,剩下的都由HelixFold3帮你算。
现在,他们已经在与一些科研机构/CRO药企进行合作,比如去验证湿实验落地的可能性。
传统流程上,非常大通量的湿实验需要好几个月才能锁定候选分子,但现在只需要计算就可以做到初步筛选,然后再拿高潜力的分子去做湿实验,这样整个研发节奏都有大大的提升。
生命科学迎来大模型应用时代
前几个月,AlphaFold斩获诺奖,如今HelixFold3以低门槛但性能完全不输的形态亮相。大模型在生命科学领域,正在加速实现从技术到应用的跨越,迈向了新阶段。
一方面体现在解决行业痛点上,大模型具备一些天然的优势,加速传统产业发展。
比如在药物研发这个场景,行业长期面临着一个「双十困境」,即一款新药研发需要耗时10年、耗资10亿美元。
但现在随着大模型发展,生物医药产业迎来了前所未有的机遇。这体现在药物研发多个研发环节当中。
例如在虚拟筛选阶段,通过大模型技术,可以从780万个分子库中快速筛选出6个潜在活性分子,效率相较于传统人工筛选提升了成千上万倍。
另一方面,更多更前沿的场景有望迎来革命性突破,像HelixFold3这种低门槛产品,会吸引更多跨学科人才参与到生命科学最前沿的课题当中。
此前曾探讨过,通用大模型带来的普遍价值是降本增效,而在生命科学领域,在降本增效这个基础上,还有创新创造的价值。
比如基因编辑、个性化诊疗、合成生物学,乃至整个工业制造,包括农业、食品、化工、材料、能源等行业都有可能被赋能。
在这一浪潮中,百度这一实力玩家不容忽略,他们早已在生命科学领域深耕多年。
在此之前,他们还曾自主研发了文心生物计算大模型系列,包括化合物通用表征模型HelixGEM和HelixGEM-2、蛋白结构分析模型HelixFold、以及单序列蛋白表征模型HelixFold-Single。
这些模型为虚拟筛选、ADMET预测、蛋白质结构预测、mRNA序列设计等提供了便携强大的算法工具。
企业通过百度螺旋桨(PaddleHelix)生物计算平台获取相关服务。目前他们已与多家药企展开深度合作,助力药物研发管线的加速推进。
此外,百度智能云还构建了一整套完整的生命科学解决方案,覆盖从药物研发到下游诊疗场景的全链条。像首个产业界医疗大模型灵医,目前正在加速医疗诊疗全流程的落地,进一步拓展了大模型在生命科学领域的价值边界。
如今,百度HelixFold3重磅升级,不仅提升了模型的精度和效率,也更为行业带来了更多可能性。
大模型在生命科学领域,会朝着更深更广的方向探索。
平台链接:
https://paddlehelix.baidu.com/
论文链接:
https://arxiv.org/pdf/2408.16975
更多详情可戳阅读原文了解更多~
— 完 —
一键关注 👇 点亮星标
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
(文:量子位)