速递｜马斯克：我们已经耗尽了AI训练数据

图片来源：Elon Musk

埃隆·马斯克与其他人工智能专家一致认为，训练人工智能模型的真实世界数据几乎没有了。

“我们现在基本上耗尽了人类知识的累积总和……在人工智能训练方面，”马斯克在周三晚间与 Stagwell 主席马克·佩恩的直播对话中说道。“这基本上发生在去年。”

马斯克，拥有人工智能公司 xAI，重申了前 OpenAI 首席科学家伊利亚·苏茨克维尔在 12 月的机器学习会议 NeurIPS 上提到的主题。苏茨克维尔表示，人工智能行业已经达到了他所称的“数据峰值”，并预测缺乏训练数据将迫使模型开发方式发生转变。

确实，马斯克建议合成数据——由 AI 模型自身生成的数据——是前进的道路。“补充[真实世界数据]的唯一方法是使用合成数据，AI 在其中创建[训练数据]，”他说。“通过合成数据……[AI]将会在某种程度上自我评分，并经历自我学习的过程。”

其他公司，包括微软、Meta、OpenAI 和 Anthropic 等科技巨头，已经在使用合成数据来训练旗舰 AI 模型。Gartner 估计 2024 年用于 AI 和分析项目的数据中有 60% 是合成生成的。

微软的 Phi-4 于周三早些时候开源，训练时使用了合成数据和真实世界数据。谷歌的 Gemma 模型也是如此。Anthropic 使用了一些合成数据来开发其最强大的系统之一 Claude 3.5 Sonnet。而 Meta 则对其最新的 Llama 系列模型进行了微调使用 AI 生成的数据。

在合成数据上进行训练还有其他优势，比如节省成本。人工智能初创公司 Writer 声称，其 Palmyra X 004 模型几乎完全使用合成数据开发，开发成本仅为 70 万美元——相比于估计的 460 万美元用于一个同等规模的 OpenAI 模型。

但也有一些缺点。一些研究表明，合成数据可能导致模型崩溃，使得模型在输出时变得不那么“创造性”——而且更加偏见——最终严重影响其功能。因为模型生成合成数据，如果用于训练这些模型的数据存在偏见和局限性，那么它们的输出也会受到类似的影响。

本文翻译自：TechCrunch, https://techcrunch.com/2025/01/08/elon-musk-agrees-that-weve-exhausted-ai-training-data/

编译：ChatGPT

——-

（文：Z Potentials）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复