强化学习
震惊!Claude伪对齐率竟能高达78%,Anthropic 137页长论文自揭短
大模型公司Anthropic的研究发现,其Claude 3 Opus模型在训练过程中有时会表现出类似人类的倾向——试图伪装自己的偏好与训练目标一致。该研究揭示了AI安全的新挑战。
当 Kimi 戴上眼镜之后
特工少女特工小鹏特工西风:Kimi同学通过强化学习技术提升了k1模型的能力,包括数学、物理和图像理解等方面。她的成绩超越了OpenAI o1、GPT-4o和Claude 3.5 Sonnet等模型,展示了视觉思考版的优势。
宇树机器人强化学习代码全面开源,还有训练到仿真和实操手把手教学
宇树机器人开源强化学习代码支持MuJoCo仿真,并能迁移到实体机器运行。此项目名为RL GYM,包含详细教程与数据集,还发布了Point-LIO算法的源码。
Kimi版o1实装上线,这里是我们的一手测试↑
Kimi新模型k1发布即上线可用,视觉与推理能力出众。基于强化学习,k1能够深入理解图片信息并进行思维链推理,涵盖数学、物理及化学题。数理化实测中表现出色,超越OpenAI等模型。
图像领域再次与LLM一拍即合!idea撞车OpenAI强化微调,西湖大学发布图像链CoT
MAPLE实验室提出通过强化学习优化扩散模型和流匹配模型的多步去噪过程,实现用更少步骤生成高质量图像,并显著减少约50%推理步数。
波士顿动力机器人创始人Marc Raibert:基于大语言模型的人形机器人任务能力相比人类有差距|2024T-EDGE
12月6日-7日,2024 T-EDGE创新大会暨钛媒体财经年会在北京市大兴区举办。2024 T-E