多模态学习归档

多模态语音表征新突破！CoGenAV：高效、鲁棒、通用的语音识别“利器”

2025年6月11日14时作者小兵的AI视界

通义联合深圳技术大学推出的CoGenAV模型通过融合音频和视觉信息，显著提升了语音识别和处理性能。仅需223小时标记数据即可训练，展现出极高的数据效率，并在多种语音处理任务中表现出色。

2025年6月9日23时作者新智元

，o3-mini-high不仅具备渊博学识，还会基于直觉解题。然而，它的推理风格过于依赖直觉，缺乏严

2025年5月29日8时作者机器之心

维曲线框结构统一编码到连续的潜空间中，解决了传统方法难以同时有效捕捉线框几何和拓扑信息的难题。这一创

2025年5月28日16时作者机器之心

CVPR 2025三大热门方向：3D技术、图像与视频合成和多模态学习，论文提交数量创历史新高。

2025年5月27日16时作者机器之心

本文提出了一种新的端到端视觉 tokenizer 调优方法 ETT，解决了传统方法存在的问题，显著提升了多模态任务的性能。

2025年5月20日23时作者极市干货

本文
提出了一种端到端视觉分词器调优方法ETT，通过联合优化分词器的重建目标和下游任务目标，并利用码

2025年4月28日16时作者机器之心

业
技术书
，更是
AI时代不可或缺的知识工具书。
任何人
都能在本书中找到属于自己的成长路径。
在

2025年4月26日16时作者机器之心

斯坦福 CS25 课程邀请多位 AI 研究者讲解 Transformer，涵盖最新突破与未来展望。

2025年4月14日16时作者新智元

到「缺失前提」（MiP）的问题时，这些模型往往表现失常：回答长度激增、计算资源浪费。本文基于马里兰大

2025年3月13日12时作者机器之心

深度学习时期那样迸发出旺盛的迭代生命力？带着这样的期待，阿里妈妈搜索广告在过去两年的持续探索中，逐步