打破纪录!谷歌全网扒1000亿图像文本对,ViT大佬坐镇:数据Scaling潜力依旧
谷歌推出WebLI-100B数据集,包含1000亿图像-文本对,显著提升多模态模型的文化多样性和多语言能力。研究发现,虽然CLIP等模型过滤筛选数据的过程可能降低模型的多元性,但更大规模的数据有助于改善模型在文化多样性和语言处理方面的表现。
谷歌推出WebLI-100B数据集,包含1000亿图像-文本对,显著提升多模态模型的文化多样性和多语言能力。研究发现,虽然CLIP等模型过滤筛选数据的过程可能降低模型的多元性,但更大规模的数据有助于改善模型在文化多样性和语言处理方面的表现。
OpenAI挖走DeepMind和Midjourney多名顶级工程师,涉及多模态人工智能研究。其中三人曾共同发表多篇顶尖论文,包括Vision Transformer (ViT),提出了一种新的图像识别方法。
ViT三大核心作者翟晓华、卢卡斯·拜尔和亚历山大·科列斯尼科夫集体离职谷歌DeepMind,加入OpenAI。他们在计算机视觉领域的研究包括ViT及其衍生工作、SigLIP、PaliGamma等。