跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

RLHF

OpenAI爆出硬伤,强化学习是祸首!o3越强越「疯」,幻觉率狂飙

下午4时 2025/04/20 作者 新智元

在一个致命问题:幻觉率高达33%,是o1的两倍。Ai2科学家直指,RL过度优化成硬伤。
满血o3更强

分类 资讯 标签 o3模型、 OpenAI、 RLHF、 半猎豹、 推理任务、 非ASCII连字符 发表评论

为什么明明很准,奖励模型就是不work?新研究:准确度 is not all you need

下午4时 2025/03/24 作者 机器之心

设计 RLHF 的奖励模型时也是一样。
我们知道,一个 RLHF 算法是否成功的一大关键在于其奖励模

分类 学术、 资讯 标签 GPT-3、 RLHF、 T5、 个性化、 多模态、 奖励模型 发表评论

小红书基于 PPO 的多模态大模型 RLHF 系统的设计与优化

下午11时 2025/03/12 作者 AI前线

术变革转向产业变革,大模型应用也会进一步繁荣,传统基础设施技术已经不足以满足大模型应用的快速发展。整

分类 资讯 标签 PPO、 RLHF、 大语言模型、 开源模型、 泛化能力、 生成质量 发表评论

GPT-4.5登场!一个让Sam感到真实的AI,看到基准分数后,网友炸锅:2T参数都白训了?

下午2时 2025/02/28 作者 AI进修生

ainee,欢
迎阅读本期新文章。
Sam Altman刚刚宣布:GPT-4.5 准备好了。
好消息

分类 分享 标签 1M tokens、 GPT-4.5、 RLHF、 SFT、 万亿参数、 幻觉 发表评论

Anthropic秘密「混合模型」 Claude 4首曝细节,硬刚GPT-5!深度推理模型来了

下午12时 2025/02/14 作者 新智元

的AI——语言模型与可控推理能力相结合的混合模型。模型包括一个独特的「滑动条」功能,它赋予开发者对计

分类 资讯 标签 Anthropic、 API销售、 OpenAI、 RLHF、 模型解释性、 自然语言处理 发表评论

RLHF 常见的思维误区

下午11时 2025/01/13 作者 极市干货

↑ 点击
蓝字
关注极市平台
作者丨ybq
来源丨NLP工作站
编辑丨极市平台
极市导读
本文探讨了

分类 学术 标签 GRPO、 OOD问题、 RLHF、 Verifier、 奖励模型、 扩散模型 发表评论

老婆饼里没有老婆,RLHF里也没有真正的RL

下午11时 2025/01/08 作者 机器之心

机器之心报道
编辑:张倩
老婆饼里没有老婆,夫妻肺片里没有夫妻,RLHF 里也没有真正的 RL。在最

分类 学术、 资讯 标签 DPO、 RLHF、 强化学习、 毒性内容、 语言模型、 长期目标 发表评论

用Python实现RLHF奖励模型构建,全方位提升模型表现!

下午10时 2024/12/29 作者 AI技术研习社

从 0 到 1:用 RLHF 和 Python 构建奖励模型,全面提升语言模型能力!

分类 大模型 标签 Argilla、 GPT-3、 Python、 RLHF、 奖励模型、 表现力 发表评论

OpenAI前资深算法负责人姜旭创建「亮源新创」,打造具身智能陪伴机器人 |智涌独家

下午4时 2024/12/13 作者 智能涌现

姜旭,OpenAI前资深算法负责人,参与多项GPT-4开发项目。2023年离开OpenAI后创建“亮源新创”,专注于具身智能陪伴机器人领域。

分类 资讯 标签 Light Robotics、 OpenAI、 RLHF、 具身智能、 姜旭、 智能涌现 发表评论

OpenAI前资深算法负责人”江旭”创建具身智能陪伴机器人公司

下午4时 2024/12/13 作者 机器人开放社区

江旭离开OpenAI后创立亮源新创,专注于开发具身智能陪伴机器人应用于家庭服务、医疗康养及教育培训等领域。

分类 机器人 标签 ChatGPT训练算法、 InstructGPT、 RLHF、 亮源新创、 机器人开放社区、 江旭 发表评论
较早文章
页面1 页面2 下一页 →

2025年 AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Manus Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克

近期文章

  • 盲测击败了ElevenLabs的一款TTS:Chatterbox
  • K8S集群化部署RAGFlow文档
  • DeepSeek 发布DeepSeek R1-0528
  • DeepSeek再次升级!R1-0528:站上世界第二,智力全面超越xAI与Meta!
  • WebDancer:迈向自主信息寻求的智能体

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
2025 年 5 月
一 二 三 四 五 六 日
 1234
567891011
12131415161718
19202122232425
262728293031  
« 4 月    

归档

  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×