SFT并非必需!推理模型仅靠RL就能获得长思维链能力,清华CMU团队破解黑盒
研究团队通过对比SFT和RL两种方法发现,长CoT的生成需要大量的计算资源。他们提出了四个关键发现:SFT并非必需但能简化训练并提高效率;推理能力随着训练计算增加而出现,但并非总是如此;可验证奖励函数对增长CoT至关重要;基模型中的错误修正等技能需要通过RL有效地激励。
研究团队通过对比SFT和RL两种方法发现,长CoT的生成需要大量的计算资源。他们提出了四个关键发现:SFT并非必需但能简化训练并提高效率;推理能力随着训练计算增加而出现,但并非总是如此;可验证奖励函数对增长CoT至关重要;基模型中的错误修正等技能需要通过RL有效地激励。
DeepSeek V3 在两个月内迅速成为中国 AI 大模型的代表,并通过开源和亲民的价格策略赢得了广泛的关注。它采用强化学习技术,专注于“深度推理”,并以较低的成本提供了高效的 API 服务。
专注于AIGC领域,介绍了东京大学等联合开发的创新模型EMAGE及其数据集BEAT2。EMAGE能根据音频自动生成连贯动作和表情,与同类模型相比表现更优,并详细描述了其技术机制和应用优势。
清华大学THUNLP团队联合东北大学NEUIR、面壁智能及9#AISoft团队推出的UltraRAG框架革新了RAG系统的开发与配置方式,提供一键式便捷操作和模块化设计,显著降低学习成本和开发周期。
上海AI实验室联合团队推出Mini-InternVL多模态大模型,仅5%参数量实现90%性能,支持自动驾驶、医学图片感知等垂类任务。
国产大模型一周动态回顾,包括新发布的UI-TARS GUI Agent模型,这是一个集成了视觉语言模型的原生GUI代理系统,旨在实现端到端任务自动化。
字节联合清华发布的UI-TARS AI Agent纯视觉感知、端到端架构及系统2推理能力使其成为通用GUI自动化新突破。多项硬核数据验证其性能超越Claude和GPT-4等现有模型。