SOTA性能归档 - 每时AI

比Gemini Diffusion更全能！首个多模态扩散大语言模型MMaDA发布，同时实现强推理与高可控性

2025年5月22日23时作者机器之心

论文提出MMaDA，首个系统性探索扩散架构的多模态基础模型，实现文本推理、多模态理解与图像生成的统一建模。该模型在多任务协同上表现出色，并通过混合长链思维微调和统一策略梯度优化提升性能。

2025年3月24日16时作者新智元

BPO-AVASR通过双焦点偏好优化方法提升了视觉和音频结合的语音识别性能，解决了噪声、口语化表达及同音词混淆等问题，在多个基准数据集上取得了最优表现。

2025年2月17日23时作者极市干货

an.zhihu.com/p/23430297491
编辑丨极市平台
极市导读
首个针对Mamba系

2024年12月13日14时作者 PaperWeekly

今年Mamba作为一种新选择性状态空间模型，在CV领域引发关注。其在多项评估中表现出色，并且具有高感知学习能力和低部署效率的优势，能够显著降低计算成本。