性能提升
UI-R1仅136张截图,vivo开源DeepSeek R1式强化学习,提升GUI智能体动作预测
本文介绍了一种基于规则的强化学习(RL/RFT)在GUI智能体领域的应用,UI-R1模型通过精心设计的奖励函数和高效的数据筛选策略提升了跨领域的任务表现。
ICLR 2025 Spotlight|让机器人实现“自主进化” 蚂蚁数科与清华联合提出具身协同框架BodyGen
果:由蚂蚁数科与清华大学联合团队提出的全新的具身协同框架 BodyGen 成功入选 Spotligh
转录工具SoftWhisper
该项目使用Whisper.cpp将音频/视频中的音频转为文字,兼容多种平台且性能优越。相较于传统方法,使用Whisper.cpp可以在大约2-3分钟内转录2小时的音频。
Vision-R1:多模态领域的DeepSeek R1-Zero,7B参数比肩OpenAI O1
Vision-R1项目通过两阶段策略解决了多模态推理数据稀缺的问题,提出冷启动初始化和RL训练方案,并创新性地引入PTST策略和HFRRF奖励函数,显著提升了模型在多个数学推理基准测试中的表现。