MLLM 归档 - 每时AI

你的Agent电脑助手正在踩雷！最新研究揭秘Computer-Use Agent的安全漏洞

2025年7月8日23时作者极市干货

中国科学技术大学、上海交通大学和上海 AI Lab 联合推出 CUAs 安全测试基准 RiOSWorld，全面评估 Computer-Use Agent 在真实电脑使用场景中的安全风险。实验结果显示大多数 Agent 风险意图率高且完成率高，指出当前多数基于 MLLM 的 CUA 缺乏风险意识。该研究已开源论文、项目官网及 GitHub 代码。

你正在做的大模型评测，可能有一半都是无用功上海AI Lab&上交&浙大出品

2025年3月18日23时作者量子位

一半
都是“重复劳动”！
来自上海AI Lab、上海交大以及浙江大学最新研究显示：当下流行的多模态大

腾讯开源AI图生视频模型，自媒体行业的实用AI工具+1。

2025年3月13日23时作者开源AI项目落地

腾讯混元系列AI视频模型持续更新。HunyuanVideo-I2V是基于该框架研发的图像到视频生成模型，适用于角色动画、特效创作等场景。

当持续学习遇上多模态大型语言模型：综述

2025年3月9日14时作者机器学习算法与自然语言处理

MLNLP社区是一国际知名的机器学习与自然语言处理社区，旨在促进领域内的交流合作。该综述系统性探讨了多模态大型模型持续学习的研究进展，涵盖模型架构与方法创新、评测基准介绍及未来发展趋势讨论。

27页超详尽综述！系统性回顾视觉定位任务十年发展

2025年1月21日23时作者极市干货

视觉定位任务十年发展系统性回顾，涵盖传统、基于VLP和MLLM的设置，并总结了全监督、无监督、弱监督、半监督、零样本及广义定位等新型设置。