多模态大模型
首次引入强化学习!火山引擎Q-Insight让画质理解迈向深度思考
Q-Insight 提出了一种基于强化学习训练的多模态大模型图像画质理解方案,通过挖掘大模型自身的推理潜力,实现对图像质量的深度理解,并在多个任务上达到业界领先水平。
动态场景,开放文本查询!清华哈佛联合建模4D语言场 CVPR 2025
清华大学等团队提出4D LangSplat方法,结合多模态大模型和状态变化网络,成功重建动态语义场并实现高效精准的开放文本查询任务。该方法在多项评估指标上优于现有技术。
阿里深夜开源Qwen2.5-Omni,7B参数完成看、听、说、写
阿里发布全新 Qwen2.5-Omni 多模态大模型,支持语音和视频聊天,并开源了7B参数的Thinker-Talker架构模型,性能优于单模态模型。