强化学习归档 - 第23页共29页 - 每时AI

2025智能体元年！斯坦福科学家8000字讲清所有要点

上午8时 2025/01/24 作者新智元

新智元报道
编辑：英智
【新智元导读】
AI智能体正悄然成为我们工作和生活中的得力助手。从自动化任务

突发！OpenAI 刚刚发布代理Operator：AI进入Level 3，但只有美国Pro用户可以试用

上午8时 2025/01/24 作者 AI寒武纪

OpenAI 推出名为Operator的研究预览版代理，能够像人类一样浏览网页并执行各种在线任务。这款工具结合了GPT-4o的视觉能力和强化学习，支持WebArena和WebVoyager基准测试领先水平。它具备自我纠错能力，并且允许用户个性化工作流程。OpenAI计划将其公开于API中并扩大访问权限。

2分钟完成论文调研！ByteDance Research推出论文检索智能体PaSa，远超主流检索工具

下午11时 2025/01/23 作者机器之心

ByteDance Research 推出的学术论文检索工具PaSa，在复杂的学术搜索场景中展示了显著优势，相比主流检索工具和强化学习模型均有提升。

正面硬刚OpenAI现役最强模型，国产AI一夜卷到硅谷

下午11时 2025/01/22 作者乌鸦智能说

中国双子星DeepSeek和Kimi发布全新推理模型R1和k1.5，性能接近OpenAI o1，引发业界关注。Long2Short训练方案成为亮点，提升了短推理路径模型的性能。

国产模型如何追上多模态OpenAI o1？你需要知道的全在这

下午4时 2025/01/22 作者 PaperWeekly

Kimi 团队发布了最新的多模态推理大模型 Kimi k1.5，其性能与正式版 o1 最为接近。通过 Long2Short 技术，该模型能够在有限的 token 预算下实现高性能推理，提升用户体验和资源利用效率。

DeepSeek开源o1击毙OpenAI，强化学习惊现「啊哈」时刻！网友：AGI来了

下午4时 2025/01/21 作者新智元

中国版o1 DeepSeek R1通过大规模强化学习训练，在多项任务中与OpenAI o1打成平手，展示了不依赖监督微调数据也能显著提升推理能力的潜力。

社区供稿 | ReaderLM v2: HTML 转 Markdown 和 JSON 的前沿小型语言模型

下午2时 2025/01/21 作者 Hugging Face

2024 年 4 月，我们发布了 Jina Reader (https://jina.ai/read

DeepSeek-R1与Kimi k1.5深度分析：大模型进化的4大趋势！

下午2时 2025/01/21 作者 AI信息Gap

木易分享了近期国内大模型圈的最新动态，强调DeepSeek-R1和Kimi k1.5在推理模型上的亮眼表现及技术细节，包括强化学习、长上下文扩展、蒸馏技术和基于规则奖励机制等重要概念。