AI学习如何连接视觉和声音,无需人工干预
研究人员开发出一种新方法提高AI学习多模态信息的能力,使机器能够自动检索视频和音频内容,并有望在新闻、电影制作等领域发挥作用。该方法通过改进训练方式和技术架构提高了模型对音频与视觉数据的对应关系理解能力。
研究人员开发出一种新方法提高AI学习多模态信息的能力,使机器能够自动检索视频和音频内容,并有望在新闻、电影制作等领域发挥作用。该方法通过改进训练方式和技术架构提高了模型对音频与视觉数据的对应关系理解能力。
金天和郑鈺熹是麻省理工学院的博士生,他们研究了大语言模型生成范式的转变。PASTA 论文介绍了通过策略学习实现异步生成的方法,包括标记语言 PASTA-LANG 和优化训练流程。实验结果表明这种方法能显著提高推理速度并保持输出质量。
大神何恺明发布新作《Mean Flows for One-step Generative Modeling》,提出一种名为 MeanFlow 的单步生成建模框架,通过引入平均速度的概念,在 ImageNet 256×256 数据集上取得了显著优于以往单步扩散/流模型的结果,FID 分数达到3.43。
Sparse VideoGen 提出了一种无需重新训练模型的方法来加速视频生成过程。通过挖掘注意力机制中的空间与时间稀疏性,该方法成功将推理时间减半,并保持了接近原模型的视觉质量。
让大模型玩井字棋成为新的热门挑战,引发广泛关注。不同模型对战结果各异,OpenAI的o3甚至能看图下棋取胜。对比了几种方式后发现,模型在应对复杂局面时仍需改进。
MIT讲解AI模型后训练(Post-Training)方法,涵盖数据构建、训练算法及发展趋势等内容,重点关注数据质量、推荐技术栈、评估体系和模型融合新思路等关键点,适合对指令微调、行业模型优化感兴趣的用户。
研究团队开发出四足机器人PAWS,仅用4个电机控制12个关节实现接近生物的自然运动。通过模仿生物协同特性,PAWS展示了惊人的环境适应能力,并揭示了机器设计的新思路。
本文提出VLM²-Bench评测基准,旨在系统探究视觉语言模型在人类级基础视觉线索关联能力上的表现。通过全面考察通用线索、物体线索和人物线索三个大类的基础关联能力,共涵盖9个子任务及3060个测试案例。
近期伯克利等机构提出COAT方法,通过动态范围扩展和混合粒度FP8精度流技术,在保持模型精度的同时显著减少FP8量化误差及激活值占用,实现了端到端内存占用减少1.54倍、训练速度提高1.43倍。
Monica团队发布全球首款通用Agent产品Manus,引起热议。Manus能帮助用户进行全面分析、生成报告等任务,表现远超OpenAI的Deep Search。开发者称其实现了从目标设定到成果交付的全链路自主执行,接近人类专家水平。