12秒生成1万token!谷歌推出文本「扩散模型」Gemini Diffusion,研究员:演示都得降速看
谷歌推出Gemini Diffusion,通过扩散技术将语言模型文本生成速度提升至2000token/秒,甚至超越了较大的模型Gemini 2.0 Flash-Lite。这种技术能够快速迭代并纠正错误,提高生成连贯性和一致性。
谷歌推出Gemini Diffusion,通过扩散技术将语言模型文本生成速度提升至2000token/秒,甚至超越了较大的模型Gemini 2.0 Flash-Lite。这种技术能够快速迭代并纠正错误,提高生成连贯性和一致性。
OpenAI 推出GPT-4o模型集成先进图像生成器,支持多模态输入输出、理解复杂指令等新功能,并向用户开放使用。
何恺明团队提出分形生成模型Fractal Generative Models,通过递归调用原子生成模块实现逐像素高分辨率图像生成。该模型从数据中学习递归法则,展示在材料、蛋白质等非序列数据建模中的潜力,并已开源代码。
字节跳动开源VideoWorld视频生成模型,无需语言模型即可学习时空动态规律,降低技术门槛,具有广泛应用前景。但存在抽象概念建模困难、算力需求高等挑战。
英伟达发布Cosmos模型,基于200万小时视频训练,包含扩散模型、自回归模型等四大功能模块。Cosmos在几何准确性上表现优异,适用于自动驾驶和机器人研究等场景。