Ilya演讲被质疑:我们真的耗尽训练数据了吗?

AI训练数据告急?!

就在大家都在担心AI训练数据即将耗尽时,一场关于「Test of Time」上Ilya 的演讲引发了激烈讨论。

Ilya 在演讲中提到:

预训练已经完成,整个互联网的数据已基本耗尽。我们在处于后训练阶段。

Eric Jang(@ericjang11) 对演讲表示赞赏,但直言不讳地指出分歧:

这场演讲太棒了,我很欣赏他的冷幽默。但唯一让我不认同的是:我们并没有耗尽数据。你可以做很多事情,你可以创造出更多互联网规模的数据。

这个观点立即引发了业内专家们的热烈讨论。

机器人传感器:数据的未来金矿?

scikityearn(@scikityearn) 提出了一个大胆的想法:

机器人上的流式传感器数据很快就会让现有数据相形见绌。

这个观点确实令人耳目一新。想想看,每一个机器人都配备着多个传感器,不断产生实时数据流,这简直就是一个移动的数据工厂

LLM:数据自繁殖的新方向

前Bite AI的创始人兼CTO μ(@michalwols)则提出了两个更具创新性的方案:

让LLM基于源文档创建困难的问题和任务。

他还进一步设想:

说起来,我在想是否有人尝试过将网络内容重写成用户与助手之间的对话,然后直接用于预训练。

这种「数据自我繁殖」的思路确实令人眼前一亮。

通过让AI模型根据已有内容生成新的问题和对话,我们或许真的能创造出「互联网规模」的新数据。

Hyperbolic Labs的联合创始人兼CTO Yuchen Jin(@Yuchenj_UW)更关心效率问题:

如何快速创造出一个互联网规模的数据?

这个问题直指核心:在当今AI竞赛中,数据生成的速度可能比数据量本身更重要。

看来,「数据告急」的担忧可能有点言过其实。

无论是机器人传感器数据、LLM生成内容,还是对话式重写,都为我们打开了新的可能性。

关键在于如何高效地利用这些方法,创造出高质量的训练数据

不过,Ilya 没有回应这些质疑,我冒昧替他来回应一下:

(文:AGI Hunt)

欢迎分享

发表评论