VRAG-RL:阿里开源多模态RAG推理框架,视觉信息理解与生成的“新引擎”!

阿里巴巴通义大模型团队推出VRAG-RL多模态RAG推理框架,通过视觉感知驱动和强化学习优化提升VLMs处理视觉丰富信息的能力。支持多轮交互、动态调整策略等,应用场景包括智能文档问答、视觉信息检索、多模态内容生成等。

AI每日速报 | 2025-06-13

专为AI工程师和产品经理打造的文章汇总了模型与核心技术、产品动态与战略布局。Meta发布V-JEPA 2,AMD推出MI350X,字节跳动发布Seedance 1.0,谷歌用于飓风预测,AlphaWrite研究提升创意写作;Meta豪掷投资Scale AI,AI原生浏览器Dia推出,苹果Siri升级推迟至2026年。

超越可灵,字节Seedance1.0 pro登上AI视频王座,多镜头叙事,自然切换

字节跳动在火山引擎Force大会上推出多款新AI产品,其中Seedance 1.0 pro视频生成模型在文生视频和图生视频任务中表现突出,尤其擅长多镜头叙事、人物动作控制流畅自然等。

一招缓解LLM偏科!调整训练集组成,“秘方”在此上交大&上海AILab等

MLNLP社区发布了一项创新方法IDEAL,用于解决大型语言模型(LLM)在多任务场景下可能出现的偏科现象。通过调整监督微调(SFT)训练集组成,研究团队发现优化后的模型在多种领域上的综合性能显著提升。