3D基础模型时代开启?Meta与牛津大学推出VGGT,一站式Transformer开创高效3D视觉新范式

VGGT 是一种基于纯前馈 Transformer 架构的通用 3D 视觉模型,能在单张或多张图像中直接预测相机参数、深度图和点云等几何信息。其推理速度可达秒级,并在多个任务中超越传统方法。

Transformer 架构重大改进:华人科学家刘壮联合何恺明,Yann LeCun整活

Meta AI华人团队联合大牛发布论文,证明Transformer模型可以不用Normalization层也能达到甚至超越现有性能。核心秘密是Dynamic Tanh (DyT)函数,相比传统方法,DyT简单有效,性能不输且速度快、成本低。

速递|Meta豪赌AI,即将发布全能模型Llama 4

Meta 计划在其最新的大型语言模型 Llama 4 中引入改进的语音功能,预计未来几周内发布。该公司正致力于使用户与其 AI 助手之间的对话更接近双向自然对话,允许用户打断。扎克伯格计划通过高级订阅服务和付费广告来创收。

Leffa 登场!Meta AI 引领可控人物图像生成新潮流

Meta AI开源的Leffa项目通过独特的技术原理和强大的功能特点在人物图像生成领域取得突破。它支持虚拟试穿、姿势转换等功能,有效保留细节并保持高质量效果,在时尚、游戏、影视及教育等多领域应用广泛。

颠覆GPT!Meta推出大型概念模型LCM: 从“猜词”到“理解”

Meta FAIR 新发布的大型概念模型(LCM)打破了传统语言模型逐词预测的局限,它将句子视为一个概念单元,在句子表征空间中进行建模。LCM的核心组件是SONAR,支持超过200种语言和多模态输入。