— 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 —
合成数据又火了?模型崩溃问题得到改善了吗?哪些团队已经用合成数据训出旗舰模型了?合成数据的理论缺口补上了?用好「带毒」的合成数据有哪些秘方?…
2. 黄仁勋「看中」的14款人形机器人,国产机器人胜算几何?
机器人技术一旦实现通用性意味着什么?最适合通用具身智能的形态会是人形吗?要想迎来通用机器人领域的「GPT」时刻,哪些因素才是核心关键?黄仁勋展示的 14 款人形机器人都是什么「来头」?国产机器人厂商「突飞猛进」,占据近一半?国内外的各家机器人在技术路线上有何差异?在 CES 2025 展会上,还有哪些值得关注的机器人?…
3. AI 时代下,2025 年有哪些关键法律问题?
AI 技术的爆发式增长给传统行业带来了哪些影响?不同地区的 AI 监管政策有何差异?AI 监管政策重点关注哪些风险?企业 AI 业务落地面临哪些合规挑战?AI 驱动下,监管政策的发展趋势如何?…
…本期完整版通讯含 3 项专题解读 + 29 项本周 AI & Robotics 赛道要事速递,其中技术方面 14 项,国内方面 10 项,国外方面 5 项。
消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元)
要事解读① 合成数据,能与不能?
引言:在2024年里,一系列合成数据的理论理解、机理分析和技巧探索工作似乎让这项技术开始兑现潜力,绕开模型崩溃的障碍,有望真正开始解决数据稀缺的问题。
2025 年了,合成数据导致「模型崩溃」的「解药」炼到几成了?
1、合成数据一直是解决人工智能开发中数据稀缺、隐私问题和高成本挑战的一种很有前景的解决方案。在 LLM 竞赛中,高质量语料数据即将耗尽的讨论不时翻新,合成数据又一次成为 AI 领域的热门话题。
① Ilya Sutskever 在 NeurIPS2024 演讲中「训练数据即将枯竭,预训练时代已经结束」的判断又一次将这个话题搬上热点;
② 年初马斯克在 X 的直播对话中「训练数据已经耗尽,唯一的补充方法是使用合成数据」的说法则进一步为该话题添加了热度。[1-1]
③ Semianalysis 的 Dylan Patel 则在在年底的谈话中认为,合成数据已经解锁了一个新的规模轴(New Axis),而这个方向的 Scaling 仍处于非常早期的阶段,因此 AI 改进的速度在未来的 6-12 个月内将会比过去一年更快。[1-2]
2、在大量期待下,合成数据目前的定位仍处于「充满潜力」而非「已是主流」,其原因则在于模型崩溃的风险。
① 「模型崩溃」现象最早由牛津大学的 Shumailov 等人在 2023 年提出,指 AI 模型在训练数据包含合成数据时性能严重下降。
② Shumailov 等在 2024 年 7 月的《Nature》封面论文中进一步指出LLM 生成的数据会污染下一代模型的训练集,导致模型崩溃,使用合成数据无异于投毒。该工作引起了许多争议。彼时,英伟达刚刚发布 Nemotron-4 340B 开源模型,称使用了 98%的合成数据。[1-3]
② Meta、NYU 等高校的研究者在 10 月的《Strong Model Collapse》中证明了即使训练数据中只有很小比例(1%)的合成数据,也可能引发模型崩溃。[1-4]
3、对比 2024 年项间多项工作对合成数据的质疑,微软、Meta、OpenAI 和 Anthropic 等领先机构在近期发布的模型中均声称采用了合成数据来训练旗舰 AI 模型,引起 AI 社区对这项技术的又一次热议。[1-5]
① 在2024年下半年,包括 Llama 3.1、o1、DeepSeekV3 和 Phi-4 等先进的模型在各自的论文/技术报告中均表示采用了合成数据。
1、合成数据的优势涵盖可以大规模生成,可定制,可避开敏感信息,适应多模态学习和可帮助 AI Alignment 等。但这种看似美好的期许下,模型崩溃风险仍是阻止该技术广泛使用的最大障碍。
(文:机器之心)