多模态归档 - 每时AI

ICML 2025 Spotlight 快手、南开联合提出模块化双工注意力机制，显著提升多模态大模型情感理解能力！

2025年7月11日16时作者 AI前线

的数字人与机器人需要精准解译多模态交互信息，深度挖掘人类内在情感状态，从而实现更具真实感与自然性的人

本文介绍了一种名为 Deliberate-to-Intuitive (D2I) 的推理框架，旨在提升多模态大型语言模型（MLLMs）在复杂推理任务中的表现。通过在训练阶段采用深度推理策略，并在测试阶段允许模型自由生成答案，显著提升了多模态模型的推理能力，同时保持了训练的高效性和可扩展性。

2025年7月10日23时作者乌鸦智能说

理要点，如今，它正成为AI竞逐的新高地。一批“AI会议笔记”类产品在硅谷迅速崛起，成为投资人争抢的核

2025年7月9日23时作者机器人大讲堂

户外场景下的AI伴随机器人研发商深庭纪智能近日完成数千万元种子轮融资。融资将用于提升自研AI大脑能力，加速新一代家用机器人的量产与落地。

2025年7月9日14时作者老刘说NLP

2025年7月9日，北京晴天。文章总结了SIGIR 2025 LiveRAG竞赛的评测报告，并介绍了信息抽取和多模态大模型训练的相关方案。强调在轮子同质化背景下，业务know-how的重要性，指出文档解析、RAG及大模型应用出现同质化严重现象。同时提到了两个大模型训练指引资源。

2025年7月9日14时作者小兵的AI视界

光、
CT
、
MRI
、超声、病理等
，并在医疗多模态
/
文本问答和报告生成任务上达到
SOT

2025年7月4日23时作者机器之心

旦
NLP
实验室联合字节跳动智能服务团队的最新研究给出了一个令人意外的发现：
游戏不仅是娱乐工具，

2025年7月4日8时作者量子位

模型上手机”
成为产业落地的焦点。
现有MLLM在手机端部署时常面临两大难题：
1、纯语言任务性能下

2025年7月3日23时作者 PaperWeekly

统一轨迹和交通状态预测任务的新范式。
本文第一作者为北京航空航天大学计算机学院博士生于勰，本文的通讯

2025年7月2日11时作者机器之心

本文综述了通用视觉模型的研究进展，涵盖统一处理多模态输入、多任务学习能力等内容，并对未来研究方向进行了展望。