多模态模型归档

ICCV 2025 腾讯优图实验室8篇论文入选，涵盖风格化人脸识别、AI生成图像检测、多模态大语言模型等方向

2025年7月9日23时作者极市干货

结果公布，腾讯优图实验室共有8篇论文入选，涵盖风格化人脸识别、AI生成图像检测、多模态大语言模型等前

2025年7月7日8时作者 AIGC开放社区

通过开源的多模态大模型EarthMind，研究人员解决了地球观测数据理解中的难题，包括注意力分散和跨模态融合等问题。

2025年6月29日8时作者开源星探

中国科学院计算技术研究所开源了一款名为Stream-Omni的多模态模型，支持文本、图像和语音交互，生成文本和语音回复。其核心在于高效模态对齐技术，仅需少量数据即可训练，并提供无缝的‘边听边看’体验。

2025年6月28日16时作者量子位

阿里发布Qwen-VLo多模态模型，具备增强细节捕捉能力、一句指令图像编辑及多语言支持。其不仅能连续生成图片，还能识别解释图像内容，并进行注释和分割。实测显示其生图效果令人满意。

2025年6月28日14时作者小兵的AI视界

联合推出的类似
GPT-4o
的大型语言
–
视觉
–
语音模型
，
能够同时支持文本、图像和语音等

2025年6月20日23时作者机器之心

上海人工智能实验室联合新加坡国立大学、香港大学等机构的研究团队提出OWMM-Agent，首个专为开放世界移动操作设计的多模态智能体。通过仿真器合成数据微调大模型，在真实环境中实现零样本单步动作预测90%的准确率。

2025年6月18日14时作者 Hugging Face

它是一个轻量级
工具包
，让你可以在
免费的 Colab Notebook
上启动 VLM 训练。

2025年6月11日16时作者 PaperWeekly

研究构建首个面向MLLM的细粒度AES基准EssayJudge，采用10项细粒度评分维度，涵盖词汇、句子和文章三个层级，评价作文质量。

2025年6月10日11时作者机器之心

王劲提出FUDOKI，一种基于非掩码离散流匹配架构的通用多模态模型，实现了图像生成与文本理解的统一建模。

2025年6月6日23时作者量子位

程马拉松长跑冠军天工、拳击冠军宇树G1，首次在
智源大会
相遇，
并且各自还秀上了一波技能。
首先来