Ilya演讲被质疑：我们真的耗尽训练数据了吗？

AI训练数据告急？！

就在大家都在担心AI训练数据即将耗尽时，一场关于「Test of Time」上Ilya 的演讲引发了激烈讨论。

Ilya 在演讲中提到：

预训练已经完成，整个互联网的数据已基本耗尽。我们在处于后训练阶段。

Eric Jang(@ericjang11) 对演讲表示赞赏，但直言不讳地指出分歧：

这场演讲太棒了，我很欣赏他的冷幽默。但唯一让我不认同的是：我们并没有耗尽数据。你可以做很多事情，你可以创造出更多互联网规模的数据。

这个观点立即引发了业内专家们的热烈讨论。

机器人传感器：数据的未来金矿？

scikityearn(@scikityearn) 提出了一个大胆的想法：

机器人上的流式传感器数据很快就会让现有数据相形见绌。

这个观点确实令人耳目一新。想想看，每一个机器人都配备着多个传感器，不断产生实时数据流，这简直就是一个移动的数据工厂！

LLM：数据自繁殖的新方向

前Bite AI的创始人兼CTO μ(@michalwols)则提出了两个更具创新性的方案：

让LLM基于源文档创建困难的问题和任务。

他还进一步设想：

说起来，我在想是否有人尝试过将网络内容重写成用户与助手之间的对话，然后直接用于预训练。

这种「数据自我繁殖」的思路确实令人眼前一亮。

通过让AI模型根据已有内容生成新的问题和对话，我们或许真的能创造出「互联网规模」的新数据。

Hyperbolic Labs的联合创始人兼CTO Yuchen Jin(@Yuchenj_UW)更关心效率问题：

如何快速创造出一个互联网规模的数据？

这个问题直指核心：在当今AI竞赛中，数据生成的速度可能比数据量本身更重要。

看来，「数据告急」的担忧可能有点言过其实。

无论是机器人传感器数据、LLM生成内容，还是对话式重写，都为我们打开了新的可能性。

关键在于如何高效地利用这些方法，创造出高质量的训练数据。

不过，Ilya 没有回应这些质疑，我冒昧替他来回应一下：

（文：AGI Hunt）