新智元报道
新智元报道
【新智元导读】OpenAI又有新人加入!来自DeepMind的3名顶级工程师兼ViT共同一作,来自Midjourney的全能工程师兼高中辍学神童——人才大战从未止息……
就在昨天,OpenAI从谷歌DeepMind挖走了3名顶级工程师!
3名工程师分别是Lucas Beyer、Alexander Kolesnikov和Xiaohua Zhai,都在X上官宣了这条消息。
据悉,加入OpenAI后,他们将致力于多模态人工智能的研发。
他们曾是近年来最先进视觉方法(SOTA)以及开源模型(如ViT、SigLIP和PaliGemma)的幕后功臣。
三人之间的关系也非常密切,学术合作颇多。
上下滚动查看
其中,他们于2021年作为共同一作发布的论文「An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale」,被引用量高达4.9万。
该论文提出了Vision Transformer (ViT) 。当在大规模数据上进行预训练,并迁移到多个中型或小型图像识别基准(如ImageNet、CIFAR-100、VTAB等)上时,ViT相较于最先进的卷积网络能够取得优异的结果,同时所需的训练计算资源显著更少。
研究证明了,在视觉领域中,对卷积网络的依赖并非必要,一个直接应用于图像块序列的纯Transformer在图像分类任务中也能表现出色。
在此之前,2020年他们还曾一起提出了神经网络架构Big Transfer (BiT),也是一次视觉模型扩展的突破。
ViT之后,他们在神经网络架构方面的探索也没有止步,分别在2021年和2023年提出了MLP-Mixer和FlexiViT。
此外,他们三人还一起参与开发了开放权重模型SigLIP和PaliGemma。
2023年,他们一起研究提出了一种用于语言-图像预训练 (Language-Image Pre-training, SigLIP) 的简单成对Sigmoid损失函数,发现在CLIP中使用Sigmoid替代SoftMax更具可扩展性。
结合锁定图像微调 (Locked-image Tuning),他们使用仅四块TPUv4芯片在两天内训练出一个SigLiT模型,其在ImageNet零样本分类任务中达到了84.5%的准确率。
PaliGemma则是今年7月提出的。PaliGemma是一个开源的视觉语言模型(VLM),基于SigLIP-So400m视觉编码器和Gemma-2B语言模型构建,在各种开放世界任务中表现强劲。
值得注意的是,Xiaohua Zhai(翟晓华)是一名华人,本科毕业于南京大学,且曾于2014年获得了北京大学计算机科学博士学位。
在谷歌DeepMind时,他担任高级研究科学家兼经理,并领导着苏黎世的一支多模态研究团队,专注于多模态数据(如WebLI)、开放权重模型(SigLIP、PaliGemma)以及包容性(CultureDiversity)等领域的研究。
至于Alexander Kolesnikov,他自2018年起,一直在谷歌工作,并担任高级研究科学家。
在此之前,他在奥地利科技研究所(ISTA)攻读博士学位,导师是Christoph Lampert,当时的研究方向是弱监督学习和生成图像模型。
他的成就包括训练了多个最先进(SOTA)的视觉模型(2019、2020 和 2021年的ImageNet SOTA),以及此前提到的开放权重模型SigLIP和PaliGemma、神经网络架构方面的BiT、ViT、MLP-Mixer和FlexiViT。
最近,他的研究重点是统一、简化并扩展多模态深度学习,如UViM、带奖励的视觉模型(Vision with Rewards)和JetFormer。
他还热衷于编写灵活且高性能的研究基础架构(尤其是在JAX中)。其中很大一部分是开源的,例如 big_vision。
Lucas Beyer则很有趣,在自己的博客上自诩为「一个自学成才的黑客和科学家」。
据他介绍,他已经在顶会上发表了相当多的论文。迄今为止,他一共发表了50多篇论文。
他也是在2018年加入了谷歌。
高中辍学,Midjourney工程师加入OpenAI
五年前,Gabriel Petersson还是个瑞典的高中辍学生,几乎没有任何工程经验便加入了一家创业公司。
而今天,他正式成为了OpenAI的研究科学家,致力于用Sora来构建AGI。
在推文中,Petersson写道,当下有众多公司都在争相「开发」AI模型,但是这种模仿和追赶是非常容易的。
相比之下,全世界只有一家公司在提升模型的智能水平方面取得了突破性进展。
目前,AI在理解现实世界方面仍面临诸多挑战。
为应对这一问题,我们可以为AI构建可探索的场景,让它从最基础的像素数据中重新发现物理定律,同时为类人机器人打造用于学习的模拟环境。
Petersson最后表示,他将与一群他所遇到过的最杰出人才携手,共同攻克这些关键难题。
纵观Petersson的经历,不得不感慨他真是神童一个。
14岁就非常有商业头脑。那一年他开始从事宝可梦卡片交易,2年间总利润超过2万美元,保持很高的利润率。
他制作的《我的世界》(Minecraft)延时摄影视频获得数百万次播放量;还运营《我的世界》游戏服务器,与内容创作者合作,并尝试将自建的开放世界角色扮演游戏服务器商业化。
17、18岁的时候,Petersson从高中辍学,作为创始团队成员加入Depict.ai(YC 2020夏季批次),该公司现已发展到约40名员工。
期间,他技术销售两手抓:既运用CNN和NLP技术开发了首个产品推荐系统,又负责B2B销售,通过上门拜访成功签约多个客户。
在他18、19岁这两年,恰逢新冠疫情,Petersson开发了一个洗手液比价网站,首周就实现了2.2万美元收入。
后来,在19-20岁期间,Petersson还被聘为瑞典最大的云厨房企业Curb Food的临时首席技术官,公司当时有80名员工。并且他在这个公司从零开始组建了7人的工程师团队,成功将厨房管理系统推向生产环境。
后来的两年,Petersson作为Dataland(YC孵化项目)的创始工程师,打造了一款面向开发者的高性能Airtable替代产品——能在几秒内加载数十万行数据;开发了业界性能最强的网页表格之一,可以流畅处理数十万行数据的筛选和排序,且保持稳定帧率。
另外,他还用Rust语言结合Skia图形引擎开发了一个实验性网页表格。即使在 CPU 降速6倍的情况下,仍能保持60帧的滚动和渲染速度。
演示链接:https://www.loom.com/share/540ad426c22c4db192293babfc9c7fdf
22岁之后,Petersson就一直在Midjourney担任软件工程师,负责 /rank、/surveys 和 /ideas 等页面的开发。工作涵盖从前端到数据库再到网络的全栈开发。
(文:新智元)