强化学习归档 - 第12页共26页 - 每时AI

视觉强化微调！DeepSeek R1技术成功迁移到多模态领域，全面开源

下午4时 2025/03/04 作者机器之心

视觉强化微调项目 Visual-RFT 通过规则奖励和强化学习方法，实现了视觉语言模型在目标检测、分类等任务中的高效提升。项目已开源，欢迎加入。

DeepSeek：挑战OpenAI的新AI神！手把手教你微调 DeepSeek-R1！

下午2时 2025/03/03 作者 AI技术研习社

DeepSeek发布免费开源模型DeepSeek-R1，性能媲美OpenAI o1。通过Kaggle平台进行微调训练，使AI更懂特定任务需求。

DeepSeek-R1 解读及技术报告中文版

下午2时 2025/03/03 作者机器学习算法与自然语言处理

MLNLP社区致力于促进国内外机器学习与自然语言处理领域的交流合作。最新研究成果《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》通过纯强化学习实现了模型推理能力的自主进化，并结合蒸馏技术实现高效迁移，显著提升了多项任务表现。

Agent or SFT or RL ? 9个多模态R1推理开源项目核心思路解析

下午2时 2025/03/02 作者老刘说NLP

个整理的技术工作。
DeepSeek-R1在处理数学、编码、谜题和科学问题以及回应一般问题时表现出出

DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码

下午12时 2025/03/02 作者机器之心

ive Policy Optimization）是 DeepSeek-R1 成功的基础技术之一，我们

Search-R1：高效、可扩展的强化学习训练框架

上午8时 2025/03/02 作者 NLP工程化

高效、可扩展的强化学习训练框架Search-R1，支持3B规模的基础LLM，通过规则化奖励机制让LLM自主学会推理和搜索，提供完整的训练流程和工具支持。

一句话让DeepSeek思考停不下来，北大团队：这是针对AI的DDoS攻击

下午4时 2025/02/28 作者量子位

北大团队发现一段提示词可以让大模型陷入无限思考，并且这种现象可以传递和复制。研究显示乱码问题更容易引发模型的“stuck”机制，说明模型有一定程度的防御措施，但面对具有含义的正常文本时仍需加强。

OpenAI Deep Research专访：Agent 的未来是端到端、强化学习微调

下午11时 2025/02/27 作者 Founder Park

天，瞠目结舌，在朋友圈发了一个感慨：
人类专家级分析员水准，质量极高，无论从任何角度看——信息广度、

黄仁勋谈推理数据智能新定律，北京大学与神旗数码建立实验室加速AI数据应用｜

下午11时 2025/02/27 作者钛媒体AGI

英伟达发布四季度和全年财报，提出推理数据计算的扩展规律。神州控股旗下神旗数码发布智能化软件平台‘燕云Infinity’，助力企业数字化转型。

小鹏机器人将成为中国最早量产L3机器人公司之一

下午12时 2025/02/26 作者机器人开放社区

小鹏汽车董事长何小鹏表示，小鹏人形机器人计划今年实现智驾准L3及L3能力，并有望成为最早量产L3机器人的公司之一。