跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

强化学习

DeepSeek开源o1击毙OpenAI,强化学习惊现「啊哈」时刻!网友:AGI来了

下午4时 2025/01/21 作者 新智元

中国版o1 DeepSeek R1通过大规模强化学习训练,在多项任务中与OpenAI o1打成平手,展示了不依赖监督微调数据也能显著提升推理能力的潜力。

分类 资讯 标签 DeepSeek-R1、 冷启动数据、 功能调用、 强化学习、 推理能力、 预训练模型 发表评论

社区供稿 | ReaderLM v2: HTML 转 Markdown 和 JSON 的前沿小型语言模型

下午2时 2025/01/21 作者 Hugging Face

2024 年 4 月,我们发布了 Jina Reader (https://jina.ai/read

分类 开源 标签 Hugging Face、 ReaderLM-v2、 小型语言模型、 强化学习、 迭代优化、 长文本处理 发表评论

DeepSeek-R1与Kimi k1.5深度分析:大模型进化的4大趋势!

下午2时 2025/01/21 作者 AI信息Gap

木易分享了近期国内大模型圈的最新动态,强调DeepSeek-R1和Kimi k1.5在推理模型上的亮眼表现及技术细节,包括强化学习、长上下文扩展、蒸馏技术和基于规则奖励机制等重要概念。

分类 国际、 大模型 标签 Model蒸馏、 o1、 个人公众号创作者、 强化学习、 木易、 深度学习模型 1 条评论

DeepSeek R1来了,追平o1!它现在不但比OpenAI开放,也比它有活力

下午12时 2025/01/21 作者 硅星人Pro

头图由豆包生成。提示词:一条海底大鲸鱼,赛博朋克,金属发光。
作者
|
王兆洋
邮箱
|
wangz

分类 资讯 标签 640亿参数、 DeepSeek、 R1 zero、 强化学习、 模型蒸馏、 自我反思 发表评论

「DeepSeek接班OpenAI」,最新开源的R1推理模型,让AI圈爆了

下午12时 2025/01/21 作者 机器之心

机器之心报道
机器之心编辑部
OpenAI 的最初愿景,最终被一家国内创业公司实现了?
昨晚,大模型

分类 学术、 资讯 标签 DeepSeek、 DeepSeek-R1、 多样化数据分布、 强化学习、 蒸馏技术、 语言一致性奖励 1 条评论

动真格!北大团队开源全模态对齐的训练、数据和测评框架align-anything

上午8时 2025/01/21 作者 PaperWeekly

如何将全模态大模型与人类的意图相对齐,已成为一个极具前瞻性且至关重要的挑战。
在当前 AI 领域的快

分类 大模型、 学术 标签 align-anything、 多模态模型、 开源项目、 强化学习、 技术对齐、 科研交流 1 条评论

DeepSeek 发布类似OpenAI o1的推理模型:DeepSeek R1

下午11时 2025/01/20 作者 NLP工程化

DeepSeek发布R1系列推理模型,媲美O1-preview,在数学和编程竞赛中表现优异,目前仅支持网页使用,正式版将开源。

分类 开源 标签 DeepSeek、 强化学习、 思维链长度、 模型开源、 正式版、 网页使用 发表评论

追平满血版o1的国产多模态模型终于来了!训练细节全部公开

下午11时 2025/01/20 作者 机器之心

机器之心报道
机器之心编辑部
春节前最后一周,能媲美 Open AI 满血版 o1(Full Ver

分类 学术、 资讯 标签 kimi、 OpenAIo1模型、 在线镜像下降法、 多模态理解、 强化学习、 长上下文scaling 发表评论

一文读懂多模态大模型:强化学习技术全面解读 SFT、RLHF、RLAIF、DPO

下午11时 2025/01/20 作者 极市干货

↑ 点击
蓝字
关注极市平台
作者丨猫先生
来源丨魔方AI空间
编辑丨极市平台
极市导读
本文从强化

分类 学术 标签 多模态、 大语言模型、 强化学习、 扩散模型、 极市平台、 视觉模型 发表评论

爆料!OpenAI 内部早已突破AGI第 4 level?

下午11时 2025/01/17 作者 AGI Hunt

Riley Coyote在社交媒体上透露OpenAI可能已经达到了AGI第4级。这引发了科技圈广泛讨论,有人担忧超级智能系统可能会基于不真实的数据训练而带来的潜在风险。

分类 分享 标签 1000亿、 OpenAI内部秘密、 Riley Coyote、 强化学习、 社交媒体、 超级智能 发表评论
较早文章
较新文章
← 上一页 页面1 … 页面29 页面30 页面31 … 页面35 下一页 →

2025年 AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Manus Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克

近期文章

  • 从打分器到思考者:RM-R1用推理重塑模型价值判断
  • SSM+扩散模型,竟造出一种全新的「视频世界模型」
  • 250美元起售,还开源,Hugging Face 发布史上最亲民人形机器人
  • 一周两破18年数学纪录!陶哲轩惊叹:AlphaEvolve带来久违「加速度」
  • 大模型推理的“左右脑”革命!华为盘古Embedded凭昇腾之力,让快慢思考合二为一

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
2025 年 6 月
一 二 三 四 五 六 日
 1
2345678
9101112131415
16171819202122
23242526272829
30  
« 5 月    

归档

  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×