自监督学习
OmniAudio:阿里通义实验室如何用360°视频开启空间音频新纪元?
Omniaudio 是阿里巴巴通义实验室推出的一种从 360° 视频生成空间音频的技术,通过自监督预训练和有监督微调提升性能。它能够直接生成 FOA 音频,并在虚拟现实和沉浸式娱乐中提供真实的 3D 音效体验。
DINO V2 算法详解:自监督学习的“炼丹炉”,Transformer 的“魔法棒” (25000字+)
lan.zhihu.com/p/27428676605
编辑丨极市平台
极市导读
DINO V2从头
LeCun世界模型出2代了!62小时搞定机器人训练,开启物理推理新时代
Meta发布世界模型V-JEPA 2,一个基于视频训练的AI模型能够理解、预测物理世界变化,并在多任务中表现优异。Meta还提出了三个新基准测试来评估现有模型从视频中理解和推理物理世界的性能。
杨立昆亲自发布:Meta最强世界模型开源!
Meta发布最新世界模型V-JEPA 2,实现最先进的视觉理解和预测能力,大幅提高物理推理效率。该模型使用超过1百万小时的视频进行自监督学习训练,并通过联合嵌入预测架构(JEPA)来增强AI理解、预测和规划物理世界的性能。
杨立昆亲自指导开源世界大模型,为AI Agent打造超级大脑
Meta开源世界大模型V-JEPA 2,使用100万视频+100万图片训练数据集,实现AI Agent像人类理解物理世界的能力。杨立昆参与开发,并表示满意。
北大校友、OpenAI前安全副总裁Lilian Weng关于模型的新思考:Why We Think
eng
(OpenAI前AI安全与机器人技术应用研究副总裁,现Thinking Machines L
移动通信领域有了新SOTA:华为出品,精准预测用户行为
华为GTS部门AI算法团队提出GTS-LUM模型,实现移动通信用户精准行为洞析与多跳预测。该方法在多个评估指标上显著优于Meta的HSTU和字节的HLLM。