跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

强化学习

迎接具身智能落地应用的星辰大海|甲子引力

下午6时 2024/12/19 作者 甲子光年

用技术降低具身智能机器人的交付成本。
12月10-11日,由「甲子光年」主办的“万千流变,一如既往”

分类 资讯 标签 real to sim to real、 仿真环境、 张志琦、 强化学习、 虚拟数据、 邵天兰 发表评论

揭秘监督微调(SFT):语言模型性能跃升的秘密武器!

下午2时 2024/12/19 作者 AI技术研习社

大型语言模型(LLMs)的训练通常分为多个阶段,包括预训练和后续的微调阶段。虽然预训练成本高昂(通常

分类 大模型 标签 BERT-base-uncased、 DataCollatorWithPadding、 Python、 强化学习、 监督微调、 训练参数 发表评论

震惊!Claude伪对齐率竟能高达78%,Anthropic 137页长论文自揭短

下午2时 2024/12/19 作者 机器之心

大模型公司Anthropic的研究发现,其Claude 3 Opus模型在训练过程中有时会表现出类似人类的倾向——试图伪装自己的偏好与训练目标一致。该研究揭示了AI安全的新挑战。

分类 学术、 资讯 标签 Anthropic、 Claude、 伪对齐、 大模型、 强化学习、 有害查询 发表评论

当 Kimi 戴上眼镜之后

下午12时 2024/12/18 作者 特工宇宙

特工少女特工小鹏特工西风:Kimi同学通过强化学习技术提升了k1模型的能力,包括数学、物理和图像理解等方面。她的成绩超越了OpenAI o1、GPT-4o和Claude 3.5 Sonnet等模型,展示了视觉思考版的优势。

分类 分享 标签 强化学习、 思维链CoT、 数理化成绩、 特工小鹏、 特工西风、 视觉思考模型 发表评论

宇树机器人强化学习代码全面开源,还有训练到仿真和实操手把手教学

下午2时 2024/12/17 作者 量子位

宇树机器人开源强化学习代码支持MuJoCo仿真,并能迁移到实体机器运行。此项目名为RL GYM,包含详细教程与数据集,还发布了Point-LIO算法的源码。

分类 资讯 标签 5种操作、 MuJoCo模拟仿真、 宇树团队、 开源代码、 强化学习、 训练数据集 发表评论

Kimi版o1实装上线,这里是我们的一手测试↑

下午10时 2024/12/16 作者 量子位

Kimi新模型k1发布即上线可用,视觉与推理能力出众。基于强化学习,k1能够深入理解图片信息并进行思维链推理,涵盖数学、物理及化学题。数理化实测中表现出色,超越OpenAI等模型。

分类 资讯 标签 k1、 kimi、 强化学习、 手写稿、 推理测试、 数学能力 发表评论

Kimi视觉思考模型 k1:可拍照解题,会给出解答过程

下午6时 2024/12/16 作者 多知

Kimi发布视觉思考模型k1,支持拍照解题并提供全过程解答。该模型在数学、物理等基础科学领域表现优于OpenAI o1、GPT-4等标杆模型。

分类 资讯 标签 k1模型、 kimi、 openai o1、 强化学习、 数学问题、 科学领域 发表评论

图像领域再次与LLM一拍即合!idea撞车OpenAI强化微调,西湖大学发布图像链CoT

下午6时 2024/12/16 作者 新智元

MAPLE实验室提出通过强化学习优化扩散模型和流匹配模型的多步去噪过程,实现用更少步骤生成高质量图像,并显著减少约50%推理步数。

分类 资讯 标签 MAPLE实验室、 去噪过程、 图像生成模型、 强化学习、 扩散和流匹配、 时间预测模块 发表评论

与1500多支国内外队伍同台竞技,快手在NeurIPS 2024顶级大赛中上演双杀

下午4时 2024/12/16 作者 机器之心

机器之心报道
编辑:杜伟、小舟
这几天,学术圈的小伙伴肯定都很关注正在加拿大温哥华举办的机器学习顶会

分类 学术、 资讯 标签 Neurips 2024、 商业化算法团队、 广告出价、 强化学习、 快手、 生成模型 发表评论

波士顿动力机器人创始人Marc Raibert:基于大语言模型的人形机器人任务能力相比人类有差距|2024T-EDGE

下午12时 2024/12/16 作者 钛媒体AGI

12月6日-7日,2024 T-EDGE创新大会暨钛媒体财经年会在北京市大兴区举办。2024 T-E

分类 资讯 标签 Ultra Mobile Vehicle、 人工智能研究所、 人机交互、 强化学习、 模拟仿真、 贝尔实验室 发表评论
较早文章
较新文章
← 上一页 页面1 … 页面33 页面34 页面35 页面36 下一页 →

2025年 AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Manus Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克

近期文章

  • 干货满满!图灵奖学术大牛和宇树、智谱等明星AI企业齐聚,探讨AI产业新风向
  • “AGI 五年内或将实现”:AI 教父 Bengio 呼吁中美达成共识,警惕 AI 沦为人类武器
  • 深夜突袭!谷歌Gemini 2.5 Pro更新蝉联榜一:推理超越o3,编程超越opus4
  • 强化学习之父Richard Sutton:人类数据耗尽,AI正在进入“经验时代”!
  • 免费约饭!美国CVPR 2025,相聚人才晚宴

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
2025 年 6 月
一 二 三 四 五 六 日
 1
2345678
9101112131415
16171819202122
23242526272829
30  
« 5 月    

归档

  • 2025 年 6 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×