自回归模型
刚刚,OpenAI 发布生图神器狙击 Google!一句话 P 图奥特曼现场玩梗,免费能用
OpenAI 推出GPT-4o模型集成先进图像生成器,支持多模态输入输出、理解复杂指令等新功能,并向用户开放使用。
何恺明开辟分形图像生成新范式!计算效率提高4000倍,首次实现高分辨率逐像素生成
何恺明团队提出分形生成模型Fractal Generative Models,通过递归调用原子生成模块实现逐像素高分辨率图像生成。该模型从数据中学习递归法则,展示在材料、蛋白质等非序列数据建模中的潜力,并已开源代码。
豆包开源视频生成模型 VideoWorld 了
字节跳动开源VideoWorld视频生成模型,无需语言模型即可学习时空动态规律,降低技术门槛,具有广泛应用前景。但存在抽象概念建模困难、算力需求高等挑战。
英伟达发布“世界大模型”,12G显存亲测可用
英伟达发布Cosmos模型,基于200万小时视频训练,包含扩散模型、自回归模型等四大功能模块。Cosmos在几何准确性上表现优异,适用于自动驾驶和机器人研究等场景。
港科大、地平线提出DrivingWorld:基于视频GPT构建自动驾驶世界模型
港科大与地平线联合提出DrivingWorld模型,采用基于自回归架构的方法实现精准的自动驾驶世界模型。通过空间-时间先解耦后融合机制和next-state预测策略,实现超长时序视频生成及可控性提升。