
新智元报道
新智元报道
【新智元导读】18岁天才高中生,利用AI竟发现了上百万个隐藏天体,震惊全球。这篇独著论文已登上天文学顶刊,或将助力探索宇宙起源之谜。
在NASA的2000亿条数据中隐藏着150万个未知天体,而揭开它们神秘面纱的,竟是一位美国高中生!
他就是Matteo Paz,来自加州南帕萨迪纳高中的天才少年。
基于加州理工学院的研究,Matteo挖掘了美国国家航空航天局(NASA)某项任务「沉睡的数据」,并以独著身份在天文学顶级期刊发文。
凭借这项成果,他直接拿下了Regeneron科学人才搜索竞赛的25万美元奖金。

2025年3月11日,Matteo Paz与加州理工学院院长Thomas F. Rosenbaum在Regeneron科学人才探索奖颁奖典礼上的合影。
目前,这项研究已于去年11月发表在《The Astronomical Journal》上,并在文中作了详细阐述。

不过,该论文中并未提及的是,唯一作者只有18岁。

近日,来自美国加州的18岁高中生Matteo Paz,凭借将机器学习与天文学巧妙融合的卓越研究,在2025年Regeneron科学人才搜索竞赛(Regeneron Science Talent Search,简称Regeneron STS)中力压群雄,斩获一等奖。

2025年Regeneron科学人才搜索竞赛获奖者,中间为Matteo Paz
Regeneron科学人才搜索竞赛始于1942年,被誉为美国「历史最悠久、最具声望的高中生科学与数学赛事」,最初名为西屋科学天才搜索(Westinghouse Science Talent Search),旨在表彰并赋能那些有潜力的年轻科学家。
他利用AI,处理了来自NASA的2000亿条数据,揭示了150万个先前未知的潜在天体。

在2013年12月,NEOWISE发现的第一颗近地小行星的运行轨迹,红色点表示移动路径
接受采访时,Matteo Paz坦言:「能参与竞赛已是荣幸,从闯入前十到最终夺冠,惊喜接踵而至,至今仍觉得像在做梦。」

Matteo Paz站在后排,对自己获得第一名的成绩感到震惊
在赢得25万美元奖金后,Paz的下一个征途是大学。
他表示,自己已被斯坦福大学录取。
就在参加颁奖典礼的几周前,Paz在帕萨迪纳的家中醒来,透过窗户看到外面烈焰翻腾。
伊顿山火(Eaton Fire)蔓延得极快,以至于他未收到任何官方警报。

伊顿山火(Eaton Fire)于2025年1月7日傍晚爆发,在天气影响下,火势迅速蔓延,共造成至少18人死亡,摧毁了9,000多座建筑,成为加州历史上死亡人数第五高、破坏程度第二严重的野火
在疏散和数日的火情之后,他的家最终幸免于难。
这让他有了新的视角。
现在,他正在思考是否有可能将一台红外望远镜送入地球轨道——这次是为了监测地球本身的新发火灾。
不过,眼下他更希望利用他在NEOWISE数据中的研究成果,探索宇宙从大爆炸以来的神秘膨胀速度,帮助科学家解开宇宙学中最大谜题之一。
「这项工作要么能帮助解决当前研究中一个极具争议的问题,要么将揭示一些关于宇宙起源的真正基础性的东西。」

早在小学时期,Paz对天文学的热爱便已萌芽。
那时,母亲常带他参加加州理工学院的公众观星讲座(Stargazing Lecture Series),璀璨星空就此在他心中种下探索的种子。
2022年夏天,他走进加州理工学院,在Andrew Howard教授领衔的行星探测器学院(Caltech Planet Finder Academy),系统学习天文学与相关计算机科学知识,开启了更深入的学术探索之旅。

天文学教授:Andrew Howard
2023年,他参与了加州理工学院为期六周的暑期研究计划(Summer Research Connection,SRC)。
该项目由教学、学习和推广中心运营,旨在为当地高中生匹配校园实验室导师,支持学生开展科研实践。

加州理工学院2023年Kirkpatrick小组SRC项目汇报
天文学家和IPAC高级科学家Davy Kirkpatrick担任Paz的导师。
在过去的五年里,除了本科生、公民科学家和来访的研究员之外,Kirkpatrick还指导过高中生。

天文学家:Davy Kirkpatrick
Paz很幸运地遇到了导师Davy,Davy给予了他充分的自由和支持。他回忆道:
我记得在我们第一次交谈时,我提到自己的目标是发表论文,这个目标远远超出了六周项目的周期。他非但没有劝阻,反而欣然回应:「好的,那我们来谈谈吧」 。
在研究过程中,他为Paz提供了充分的自主探索空间,而正是这种自由,使Paz在科研道路上得以迅速成长。
Kirkpatrick成长于田纳西州的农业社区,在九年级化学与物理老师Marilyn Morrison的助力下,圆了天文学家之梦。
Morrison老师向他和母亲点明其天赋,并悉心指导升学所需课程,为大学深造铺路。
如今,Kirkpatrick希望将老师当年的指引传递下去,他表示:「一旦发现别人的潜力,我一定会全力帮助他充分发挥出来。」

2025年Regeneron科学天才搜索一等奖得主Matteo Paz手持奖杯
但Kirkpatrick希望从NEOWISE(近地天体广域红外探测器)项目中获取更多有价值的信息。

NEOWISE是NASA已退役的红外望远镜。
在服役的十多年间,它不间断地扫描整片天空,专注搜寻地球附近的小行星及其他天体。

NEOWISE在2024年底重返大气层并安全烧毁
虽然NASA的NEOWISE望远镜以观测小行星为主要任务,但在运行期间,它还敏锐捕捉到遥远宇宙物体的热量变化。
这些天体有的会发出强烈闪光或脉动,有的在相互遮掩时会出现亮度衰减,反映出宇宙天体运动过程中的多样性和复杂性。

天文学家将这些亮度变化的现象统称为变星,其中一些类型如类星体、超新星和互相遮掩的双星系统,因其变化不易捕捉而尤为复杂。

模拟的双星系统亮度变化
然而,这些关于变星的数据尚未得到充分利用。
如果NEOWISE团队能够识别这些天体并向天文界公开相关数据,由此生成的变星目录将有助于人类深入理解宇宙天体随时间演化的规律。
当时,团队已积累超十年的探测数据,总数据量接近2000亿行。

2024年,NEOWISE团队公布了项目的最终数据和未发现图像
Kirkpatrick的设想是:
在夏天先选取一小块天空进行分析,看看能否从中找到一些变星。
然后,我们再向天文界展示这些成果,告诉他们「这是我们亲自发现的新事物,想象一下整个数据集蕴含的巨大潜力吧!」

面对NEOWISE近2000亿行的海量数据,Paz并未选择手动筛选,而是凭借在校积累的知识另辟蹊径。
在一门融合了编程、理论计算机科学和数学的选修课上,他对AI产生了浓厚的兴趣。
他深知,AI在大规模有序数据集上训练效果最好,而导师Kirkpatrick提供的数据恰好满足这一条件。
幸运的是,他完成了AP微积分(Advanced Placement Calculus)BC课程,具备了开发机器学习模型所需的数学能力。
基于这些优势,Paz开始构建机器学习模型,对数据集进行系统性分析,精准识别潜在的变星候选体。

2014―2018年天文学中应用深度学习的论文研究主题和各主题数量趋势
在那六周里,他开始构建AI模型,该模型初见成效。
研究期间,Paz常向Kirkpatrick请教天文学与天体物理学知识。
谈及这段经历,他总是难掩喜悦:
每次和Davy见面,我们只有10%的时间在讨论工作,剩下90%的时间都在闲聊。能有这样一个人可以一起畅谈科学,真是太棒了!
Kirkpatrick还将Paz介绍给了加州理工学院的天文学家Shoubaneh Hemmati、Daniel Masters、Ashish Mahabal和Matthew Graham。
他们在天文学中的机器学习应用,以及不同时间尺度下变星的研究方面,为Paz提供了宝贵的专业知识。
Paz与Kirkpatrick意识到,NEOWISE的观测方式存在局限性,难以有效检测和分类那些快速闪烁或缓慢变化的天体。
夏天结束后,还有很多工作要做。
第二年也就是2024年,Paz和Kirkpatrick再次合作。
现在,Paz已经改进了AI模型,用于处理来自NEOWISE观测的全部原始数据,并分析了结果。
该模型在包含真实红外变星的验证数据集上进行测试,在四类变星识别任务中取得了0.91的F1分数。

此外,从NEOWISE数据中,模型成功识别并分类出约150万个潜在的变星候选体。
在这项研究之前,从未有人尝试利用这张包含2000亿行的数据集,去识别和分类其中所有重要的变异性现象。

Matteo Paz于2023年的研讨会上展示了他的初步研究成果
加州理工学院的研究人员已经开始使用Paz编制的潜在变星体目录——VarWISE,用于研究双星系统。

首个完整的红外变异性巡天项目VarWISE,共识别并分类了190万个变星体,划分为10个类别
在2025年,Paz和Kirkpatrick计划发布包含NEOWISE数据中亮度变化显著的天体的完整目录。

Matteo Paz设计了一套处理流程,从NEOWISE数据中提取变星候选体。

论文链接:https://iopscience.iop.org/article/10.3847/1538-3881/ad7fe6
以前的方法在检测周期性信号方面非常有效,但它们在处理WISE如此大规模数据(高达数十千亿行)时速度极慢,几乎无法在实际中使用。
而Paz采用的全新机器学习模型,却能在现实可行的时间范围内解决这一问题!
它的目标就是,分析天空中任意天体的光变曲线,并将其分类为静态源、新星/明亮瞬变源、双星系统或脉动光源。
具体来说,Paz采用卷积操作和变换技术来提取高细节特征,让模型能够有效检测到周期性和非周期性的亮度变化。
为此,他专门设计了VARnet模型,能够快速识别天体时间序列数据中的真实变异性。
对于每条约含2000个数据点的光变曲线,在一张22GB显存的GPU上,VARnet处理速度大于53微秒/天体。
但训练VARnet需要大量训练数据。为此,Paz专门为每类目标光源开发了一个精准的合成光变曲线生成器,以便为这一复杂模型提供无限量的训练样本。
生成一条完整的合成光变曲线样本的步骤如下:
1. 构造一个基础亮度函数f(t)
2. 按照WISE的观测节奏(采样间隔)对该函数进行采样
3. 加入高斯噪声 ,其中噪声方差为亮度函数的某种函数形式
伪代码详见算法2。

这一方法论(见图1)实现了极快的运行速度,并在测试集上表现出高精度和强性能,最终生成了高质量的异常目标列表。

原文图1:异常检测流程示意图
整个流程如下:
(1)收集并预处理数据
采用基于密度的方法,对单次曝光源目录中的天体显现(apparitions)进行空间聚类,以及一系列数据变换,提高数据质量。
(2)设计并训练信号处理模型VARnet,能够快速识别天体时间序列数据中的真实变异性。
VARnet使用一维小波分解来最大限度地降低异常数据对分析结果的影响,并对离散傅里叶变换(DFT)进行了创新性的改进,从而快速检测周期性并提取时间序列特征。
VARnet将这些特征分析整合,利用机器学习实现对天体类型的预测,主要依赖卷积神经网络。

VARnet模型的完整结构
VARnet模型的完整结构如上图所示。
整个模型统一采用ReLU激活函数,开始包含三个卷积层,用于处理信号,并将其压缩为三通道,送入傅里叶特征提取模块。在模型实际运行中,最终的输出向量会经过softmax操作,使预测结果可以被解释为概率形式,并按置信度进行排序。
(3)利用VARnet识别出新的异常天体并人工检查预测结果。
他还验证出,VARnet对已知及新发现的变星源均具有高度的敏感性与准确性。
果然,VARnet产生了一些有趣的探测结果!
首先,它以极高的置信度,恢复了许多已知物体。
比如,食变星V* V1403 Ori就被成功识别出来了,置信度超过0.99。

另一个被精妙识别出来的,就是食双星系统CRTS J054306.5−024247。

而且,VARnet还发现了全新的天体。
位于J2000赤经/赤纬1.53483°,−59.08751°的天体,就被VARnet标记为变星候选体。经检索发现,该天体在现有文献或任何星表中均无相关记录。

甚至,模型还发现了一颗超新星!
在J2000赤经/赤纬31.40235°,−61.05673°处,模型标记了一个天体为瞬变活动源,经比对,该天体对应星表中记录的星系LEDA 358365。
2023年6月,该天体曾出现快速变亮的现象;而在WISE的下一次观测中,其亮度又恢复至平均水平(见下图)。

在对瞬变事件目录进行检索后,可以发现,该事件与AT 2023lkp的观测记录相符。
考虑到该事件的持续时间及其起源于该星系的事实,Paz等人判断:这很可能是一颗超新星。

如果对具体的细节感兴趣,不妨参阅原文。
(文:新智元)