AI训练数据告急?!
就在大家都在担心AI训练数据即将耗尽时,一场关于「Test of Time」上Ilya 的演讲引发了激烈讨论。
Ilya 在演讲中提到:
预训练已经完成,整个互联网的数据已基本耗尽。我们在处于后训练阶段。
Eric Jang(@ericjang11) 对演讲表示赞赏,但直言不讳地指出分歧:
这场演讲太棒了,我很欣赏他的冷幽默。但唯一让我不认同的是:我们并没有耗尽数据。你可以做很多事情,你可以创造出更多互联网规模的数据。
这个观点立即引发了业内专家们的热烈讨论。
机器人传感器:数据的未来金矿?
scikityearn(@scikityearn) 提出了一个大胆的想法:
机器人上的流式传感器数据很快就会让现有数据相形见绌。
这个观点确实令人耳目一新。想想看,每一个机器人都配备着多个传感器,不断产生实时数据流,这简直就是一个移动的数据工厂!
LLM:数据自繁殖的新方向
前Bite AI的创始人兼CTO μ(@michalwols)则提出了两个更具创新性的方案:
让LLM基于源文档创建困难的问题和任务。
他还进一步设想:
说起来,我在想是否有人尝试过将网络内容重写成用户与助手之间的对话,然后直接用于预训练。
这种「数据自我繁殖」的思路确实令人眼前一亮。
通过让AI模型根据已有内容生成新的问题和对话,我们或许真的能创造出「互联网规模」的新数据。
Hyperbolic Labs的联合创始人兼CTO Yuchen Jin(@Yuchenj_UW)更关心效率问题:
如何快速创造出一个互联网规模的数据?
这个问题直指核心:在当今AI竞赛中,数据生成的速度可能比数据量本身更重要。
看来,「数据告急」的担忧可能有点言过其实。
无论是机器人传感器数据、LLM生成内容,还是对话式重写,都为我们打开了新的可能性。
关键在于如何高效地利用这些方法,创造出高质量的训练数据。
不过,Ilya 没有回应这些质疑,我冒昧替他来回应一下:
(文:AGI Hunt)