自监督学习归档

揭秘千卡 GPU 集群如何高效训练多模态大模型：vivo AI 团队实战经验分享｜AICon

2025年6月18日16时作者 AI前线

客服、自动驾驶、AIGC 等领域的应用需求不断增长，但其训练工程面临计算、存储、数据处理、分布式通信

2025年6月16日14时作者小兵的AI视界

Omniaudio 是阿里巴巴通义实验室推出的一种从 360° 视频生成空间音频的技术，通过自监督预训练和有监督微调提升性能。它能够直接生成 FOA 音频，并在虚拟现实和沉浸式娱乐中提供真实的 3D 音效体验。

2025年6月15日23时作者极市干货

lan.zhihu.com/p/27428676605
编辑丨极市平台
极市导读
DINO V2从头

2025年6月12日23时作者量子位

Meta发布世界模型V-JEPA 2，一个基于视频训练的AI模型能够理解、预测物理世界变化，并在多任务中表现优异。Meta还提出了三个新基准测试来评估现有模型从视频中理解和推理物理世界的性能。

2025年6月12日11时作者智东西

Meta发布最新世界模型V-JEPA 2，实现最先进的视觉理解和预测能力，大幅提高物理推理效率。该模型使用超过1百万小时的视频进行自监督学习训练，并通过联合嵌入预测架构（JEPA）来增强AI理解、预测和规划物理世界的性能。

2025年6月12日8时作者 AIGC开放社区

Meta开源世界大模型V-JEPA 2，使用100万视频+100万图片训练数据集，实现AI Agent像人类理解物理世界的能力。杨立昆参与开发，并表示满意。

2025年5月18日16时作者 Founder Park

eng
（OpenAI前AI安全与机器人技术应用研究副总裁，现Thinking Machines L

2025年4月7日16时作者新智元

证了SSL在多模态任务中的潜力，证明其在扩展模型和数据规模后，能媲美甚至超越CLIP。这项研究为无语

2025年4月4日16时作者量子位

华为GTS部门AI算法团队提出GTS-LUM模型，实现移动通信用户精准行为洞析与多跳预测。该方法在多个评估指标上显著优于Meta的HSTU和字节的HLLM。

2025年4月1日14时作者 AI先锋官

上发表演讲，他提到：
“仅靠文本训练，我们无法实现达到人类水平的AI。”
他表示，且不说达到人类的水