千帧长视频时代到来!MIT全新扩散算法让任意模型突破时长极限

MIT团队提出的新算法Diffusion Forcing Transformer(DFoT)让视频扩散模型生成了比之前长近50倍、上千帧的长视频,论文介绍了历史引导算法及其在不同数据集上的效果。

ICLR 2025 3D意图定位:AI仅凭人类意图就能完成三维空间的定位

该项目提出3D意图定位(3D-IG),旨在根据用户的意图在3D场景中检测目标物体,而非仅依赖明确的物体描述。通过引入动宾对齐、候选框匹配和级联自适应学习等技术,该方法显著提升了性能。

又来一个“最强模型”!Anthropic发布Claude 3.7 Sonnet,兼备“推理模式”与“传统模式”

该公司发布名为Claude 3.7 Sonnet的混合型模型,具备推理模式和实时生成答案的能力,并在编程领域表现出色。该模型被描述为市面上唯一的此类‘混合’模型,预计将立即投入使用。