豆包团队视频生成新突破:无需语言模型,仅凭“视觉”就能学习复杂任务 下午4时 2025/01/27 作者 量子位 一种名为VideoWorld的模型无需依赖语言模型,仅通过视觉信号学习知识、认知世界,并能执行复杂任务。它利用潜在动态模型高效压缩视频帧间的视觉变化信息,显著提升知识学习效率和效果。