合成数据，能与不能？

机器之心PRO · 会员通讯 Week 03

— 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 —

1. 合成数据，能与不能？

合成数据又火了？模型崩溃问题得到改善了吗？哪些团队已经用合成数据训出旗舰模型了？合成数据的理论缺口补上了？用好「带毒」的合成数据有哪些秘方？…

2. 黄仁勋「看中」的14款人形机器人，国产机器人胜算几何？

机器人技术一旦实现通用性意味着什么？最适合通用具身智能的形态会是人形吗？要想迎来通用机器人领域的「GPT」时刻，哪些因素才是核心关键？黄仁勋展示的 14 款人形机器人都是什么「来头」？国产机器人厂商「突飞猛进」，占据近一半？国内外的各家机器人在技术路线上有何差异？在 CES 2025 展会上，还有哪些值得关注的机器人？…

3. AI 时代下，2025 年有哪些关键法律问题？

AI 技术的爆发式增长给传统行业带来了哪些影响？不同地区的 AI 监管政策有何差异？AI 监管政策重点关注哪些风险？企业 AI 业务落地面临哪些合规挑战？AI 驱动下，监管政策的发展趋势如何？…

…本期完整版通讯含 3 项专题解读 + 29 项本周 AI & Robotics 赛道要事速递，其中技术方面 14 项，国内方面 10 项，国外方面 5 项。

本期通讯总计 28622 字，可免费试读至 5%

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读① 合成数据，能与不能？

引言：在2024年里，一系列合成数据的理论理解、机理分析和技巧探索工作似乎让这项技术开始兑现潜力，绕开模型崩溃的障碍，有望真正开始解决数据稀缺的问题。

2025 年了，合成数据导致「模型崩溃」的「解药」炼到几成了？

1、合成数据一直是解决人工智能开发中数据稀缺、隐私问题和高成本挑战的一种很有前景的解决方案。在 LLM 竞赛中，高质量语料数据即将耗尽的讨论不时翻新，合成数据又一次成为 AI 领域的热门话题。

① Ilya Sutskever 在 NeurIPS2024 演讲中「训练数据即将枯竭，预训练时代已经结束」的判断又一次将这个话题搬上热点；

② 年初马斯克在 X 的直播对话中「训练数据已经耗尽，唯一的补充方法是使用合成数据」的说法则进一步为该话题添加了热度。[1-1]

③ Semianalysis 的 Dylan Patel 则在在年底的谈话中认为，合成数据已经解锁了一个新的规模轴（New Axis），而这个方向的 Scaling 仍处于非常早期的阶段，因此 AI 改进的速度在未来的 6-12 个月内将会比过去一年更快。[1-2]

2、在大量期待下，合成数据目前的定位仍处于「充满潜力」而非「已是主流」，其原因则在于模型崩溃的风险。

① 「模型崩溃」现象最早由牛津大学的 Shumailov 等人在 2023 年提出，指 AI 模型在训练数据包含合成数据时性能严重下降。

② Shumailov 等在 2024 年 7 月的《Nature》封面论文中进一步指出LLM 生成的数据会污染下一代模型的训练集，导致模型崩溃，使用合成数据无异于投毒。该工作引起了许多争议。彼时，英伟达刚刚发布 Nemotron-4 340B 开源模型，称使用了 98%的合成数据。[1-3]

② Meta、NYU 等高校的研究者在 10 月的《Strong Model Collapse》中证明了即使训练数据中只有很小比例（1%）的合成数据，也可能引发模型崩溃。[1-4]

3、对比 2024 年项间多项工作对合成数据的质疑，微软、Meta、OpenAI 和 Anthropic 等领先机构在近期发布的模型中均声称采用了合成数据来训练旗舰 AI 模型，引起 AI 社区对这项技术的又一次热议。[1-5]

① 在2024年下半年，包括 Llama 3.1、o1、DeepSeekV3 和 Phi-4 等先进的模型在各自的论文/技术报告中均表示采用了合成数据。

用好「带毒」的合成数据有哪些秘方？

1、合成数据的优势涵盖可以大规模生成，可定制，可避开敏感信息，适应多模态学习和可帮助 AI Alignment 等。但这种看似美好的期许下，模型崩溃风险仍是阻止该技术广泛使用的最大障碍。

（文：机器之心）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

要事解读① 合成数据，能与不能？

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复