ICCV 2025 腾讯优图实验室8篇论文入选,涵盖风格化人脸识别、AI生成图像检测、多模态大语言模型等方向
结果公布,腾讯优图实验室共有8篇论文入选,涵盖风格化人脸识别、AI生成图像检测、多模态大语言模型等前
结果公布,腾讯优图实验室共有8篇论文入选,涵盖风格化人脸识别、AI生成图像检测、多模态大语言模型等前
中国科学院计算技术研究所开源了一款名为Stream-Omni的多模态模型,支持文本、图像和语音交互,生成文本和语音回复。其核心在于高效模态对齐技术,仅需少量数据即可训练,并提供无缝的‘边听边看’体验。
阿里发布Qwen-VLo多模态模型,具备增强细节捕捉能力、一句指令图像编辑及多语言支持。其不仅能连续生成图片,还能识别解释图像内容,并进行注释和分割。实测显示其生图效果令人满意。
联合推出的类似
GPT-4o
的大型语言
–
视觉
–
语音模型
,
能够同时支持文本、图像和语音等
上海人工智能实验室联合新加坡国立大学、香港大学等机构的研究团队提出OWMM-Agent,首个专为开放世界移动操作设计的多模态智能体。通过仿真器合成数据微调大模型,在真实环境中实现零样本单步动作预测90%的准确率。
研究构建首个面向MLLM的细粒度AES基准EssayJudge,采用10项细粒度评分维度,涵盖词汇、句子和文章三个层级,评价作文质量。
王劲提出FUDOKI,一种基于非掩码离散流匹配架构的通用多模态模型,实现了图像生成与文本理解的统一建模。