首次引入强化学习!火山引擎Q-Insight让画质理解迈向深度思考
Q-Insight 提出了一种基于强化学习训练的多模态大模型图像画质理解方案,通过挖掘大模型自身的推理潜力,实现对图像质量的深度理解,并在多个任务上达到业界领先水平。
Q-Insight 提出了一种基于强化学习训练的多模态大模型图像画质理解方案,通过挖掘大模型自身的推理潜力,实现对图像质量的深度理解,并在多个任务上达到业界领先水平。
清华大学等团队提出4D LangSplat方法,结合多模态大模型和状态变化网络,成功重建动态语义场并实现高效精准的开放文本查询任务。该方法在多项评估指标上优于现有技术。
阿里发布全新 Qwen2.5-Omni 多模态大模型,支持语音和视频聊天,并开源了7B参数的Thinker-Talker架构模型,性能优于单模态模型。
4 月 18-19 日,由 CSDN&Boolan 联合举办的「2025 全球机器学习技术大会」将在上海虹桥西郊庄园丽笙大酒店隆重举行,云集多位重量级嘉宾分享前沿议题。段楠博士将详解多模态大模型进展,并深入剖析 Step-Video-T2V 和 Step-Audio 模型的最新成果和挑战,为参会者提供宝贵见解。