稳定性归档 - 每时AI

理解GRPO，超越GRPO！GVPO算法详解

MLNLP社区致力于推动国内外自然语言处理和机器学习领域内的交流合作。文章提出GVPO算法，通过KL约束的奖励最大化解析解解决了GRPO中的训练不稳定问题，并支持多样化的采样分布，具有较好的稳定性和表现。

2025年5月29日11时作者新智元

新版DeepSeek-R1开源，性能几乎与o4-mini相当。编程能力超越Claude 4 Sonnet，网友称赞思考时间长且逻辑缜密。对比Gemini 2.5 Pro在特定任务上表现出色，引发广泛关注。

2025年5月27日23时作者机器之心

阿里巴巴团队提出QwenLong-L1框架解决长短上下文推理强化学习问题，显著提升长文档问答任务性能，超越OpenAI等旗舰模型。

2025年3月26日23时作者机器人大讲堂

编码器技术为机器人精准运动控制提供关键支撑。初创企业光码未来研发出新型光像式编码器，成本低且可靠性高，打破传统光电式编码器局限。

2025年3月17日23时作者硅星人Pro

钉钉在全国多地打出广告，吸引人才。同时，钉钉免费开放AI助手功能至企业官网和公众号，帮助企业客服更好地服务C端用户，提升业务效率。

2025年2月17日8时作者 NLP工程化

深度强化学习在样本效率、奖励设计和稳定性等方面存在问题，未来可能通过更好的模型基础学习、迁移学习等方向解决。

2025年2月15日12时作者路过银河AI

AI绘画大模型——ARTSY VIBE VERSION 1。作为ARTSY系列的最新成员，这款模型不

2025年1月10日16时作者机器之心

选自latent.space
作者：Kwindla Hultman Kramer等
机器之心编译
机