AI学习如何连接视觉和声音,无需人工干预​

研究人员开发出一种新方法提高AI学习多模态信息的能力,使机器能够自动检索视频和音频内容,并有望在新闻、电影制作等领域发挥作用。该方法通过改进训练方式和技术架构提高了模型对音频与视觉数据的对应关系理解能力。

策略学习助力LLM推理效率:MIT与谷歌团队提出异步并行生成新范式

金天和郑鈺熹是麻省理工学院的博士生,他们研究了大语言模型生成范式的转变。PASTA 论文介绍了通过策略学习实现异步生成的方法,包括标记语言 PASTA-LANG 和优化训练流程。实验结果表明这种方法能显著提高推理速度并保持输出质量。

何恺明团队又发新作: MeanFlow单步图像生成SOTA,提升达50%

大神何恺明发布新作《Mean Flows for One-step Generative Modeling》,提出一种名为 MeanFlow 的单步生成建模框架,通过引入平均速度的概念,在 ImageNet 256×256 数据集上取得了显著优于以往单步扩散/流模型的结果,FID 分数达到3.43。

ICML 2025 视频生成模型无损加速两倍,秘诀竟然是「抓住attention的时空稀疏性」

Sparse VideoGen 提出了一种无需重新训练模型的方法来加速视频生成过程。通过挖掘注意力机制中的空间与时间稀疏性,该方法成功将推理时间减半,并保持了接近原模型的视觉质量。

人类秒懂,AI却懵圈:VLM²-Bench揭示视觉语言模型「视觉关联」能力短板

本文提出VLM²-Bench评测基准,旨在系统探究视觉语言模型在人类级基础视觉线索关联能力上的表现。通过全面考察通用线索、物体线索和人物线索三个大类的基础关联能力,共涵盖9个子任务及3060个测试案例。