强化学习归档 - 第30页共35页

DeepSeek开源o1击毙OpenAI，强化学习惊现「啊哈」时刻！网友：AGI来了

下午4时 2025/01/21 作者新智元

中国版o1 DeepSeek R1通过大规模强化学习训练，在多项任务中与OpenAI o1打成平手，展示了不依赖监督微调数据也能显著提升推理能力的潜力。

下午2时 2025/01/21 作者 Hugging Face

2024 年 4 月，我们发布了 Jina Reader (https://jina.ai/read

下午2时 2025/01/21 作者 AI信息Gap

木易分享了近期国内大模型圈的最新动态，强调DeepSeek-R1和Kimi k1.5在推理模型上的亮眼表现及技术细节，包括强化学习、长上下文扩展、蒸馏技术和基于规则奖励机制等重要概念。

下午12时 2025/01/21 作者硅星人Pro

头图由豆包生成。提示词：一条海底大鲸鱼，赛博朋克，金属发光。
作者
｜
王兆洋
邮箱
｜
wangz

下午12时 2025/01/21 作者机器之心

机器之心报道
机器之心编辑部
OpenAI 的最初愿景，最终被一家国内创业公司实现了？
昨晚，大模型

上午8时 2025/01/21 作者 PaperWeekly

如何将全模态大模型与人类的意图相对齐，已成为一个极具前瞻性且至关重要的挑战。
在当前 AI 领域的快

下午11时 2025/01/20 作者 NLP工程化

DeepSeek发布R1系列推理模型，媲美O1-preview，在数学和编程竞赛中表现优异，目前仅支持网页使用，正式版将开源。

下午11时 2025/01/20 作者机器之心

机器之心报道
机器之心编辑部
春节前最后一周，能媲美 Open AI 满血版 o1（Full Ver

下午11时 2025/01/20 作者极市干货

↑ 点击
蓝字
关注极市平台
作者丨猫先生
来源丨魔方AI空间
编辑丨极市平台
极市导读
本文从强化