何恺明开辟分形图像生成新范式!计算效率提高4000倍,首次实现高分辨率逐像素生成
何恺明团队提出分形生成模型Fractal Generative Models,通过递归调用原子生成模块实现逐像素高分辨率图像生成。该模型从数据中学习递归法则,展示在材料、蛋白质等非序列数据建模中的潜力,并已开源代码。
何恺明团队提出分形生成模型Fractal Generative Models,通过递归调用原子生成模块实现逐像素高分辨率图像生成。该模型从数据中学习递归法则,展示在材料、蛋白质等非序列数据建模中的潜力,并已开源代码。
字节跳动开源VideoWorld视频生成模型,无需语言模型即可学习时空动态规律,降低技术门槛,具有广泛应用前景。但存在抽象概念建模困难、算力需求高等挑战。
英伟达发布Cosmos模型,基于200万小时视频训练,包含扩散模型、自回归模型等四大功能模块。Cosmos在几何准确性上表现优异,适用于自动驾驶和机器人研究等场景。
港科大与地平线联合提出DrivingWorld模型,采用基于自回归架构的方法实现精准的自动驾驶世界模型。通过空间-时间先解耦后融合机制和next-state预测策略,实现超长时序视频生成及可控性提升。
Ilya Sutskever在NeurIPS 2024中指出预训练时代即将终结,并预测未来将是超级智能的时代,强调Agent系统和合成数据将成为突破瓶颈的关键。他认为未来的AI将发展成能够自主推理和决策的’Agent’,甚至可能具备自我意识。
北大与字节跳动团队的论文《Visual AutoRegressive Modeling: Scalable Image Generation via Next-Scale Prediction》获得NeurIPS 2024最佳论文奖。该模型提出了多尺度预测的新范式,显著提升了图像生成的效率和质量,并在视觉生成领域验证了‘规模化定律’。