UI-R1仅136张截图,vivo开源DeepSeek R1式强化学习,提升GUI智能体动作预测

本文介绍了一种基于规则的强化学习(RL/RFT)在GUI智能体领域的应用,UI-R1模型通过精心设计的奖励函数和高效的数据筛选策略提升了跨领域的任务表现。

为大模型添加多模态能力——Mini DALL·E 3

北京理工大学等4大名校联合发布Mini DALL·E 3,无需额外训练即可为多数主流大模型添加文成图多模态输出能力。该系统由语言模型、路由器、适配器和图像生成模型四大模块组成,实现了用文本生成图像。

港中文北大等联手,21万美金悬赏AI+机器人天才!推荐信、投资等你拿

ATEC2025科技精英赛由香港中文大学等主办,聚焦AI与机器人技术。设置软件算法和硬件设计双赛道,提供高达21万美元奖金,并邀请顶尖学者和技术领袖进行交流。报名截至4月25日,详情见www.ATECup.com。

一文看懂多模态思维链

多模态思维链(MCoT)系统综述发布,介绍了其基本概念、分类法和应用场景,并探讨了当前挑战及未来研究方向。通过推理构建视角、结构化推理视角等六大技术支柱提升模型能力,改变机器人的操作、自动驾驶的安全性、医疗诊断的速度与准确性以及教育的个性化教学等方面。论文链接:https://arxiv.org/pdf/2503.12605

可灵接入DeepSeek-R1,一手实测在此:AI视频创作,不用学写提示词了

可灵视频生成产品接入R1后,通过调用AI助手设计提示词,即使输入单个字也能精准生成相关视频。DeepSeek帮助设计的提示词不仅扩充细节,还能将复杂抽象的内容具体化。新成果ReCamMaster则是镜头可控的生成式视频再渲染框架,支持多种镜头操作重现复杂场景。

240元打造擅长数学的多模态版R1,基于DeepSeek核心思想,两阶段训练提升推理能力至工业级应用标准

东南大学、香港中文大学和蚂蚁集团的研究团队提出了一种名为LMM-R1的两阶段多模态基于规则强化学习框架,显著提升了小型多模态大模型的数学推理能力。该框架在仅需240元GPU成本下训练出性能卓越且适用于工业级应用的多模态模型。

摆脱编码器依赖!Encoder-free 3D多模态大模型,性能超越13B现有SOTA 上海AI Lab港中文等团队新作

无编码器3D LMM通过混合语义损失和层次几何聚合策略提升了对3D物体的理解,不仅克服了点云分辨率变化和嵌入语义差异的局限性,在Objaverse基准测试中性能优于现有SOTA模型。