自回归模型的新突破:首次生成2048×2048分辨率图像

来自Meta、西北大学、新加坡国立大学等机构的研究人员,提出了TokenShuffle,为多模态大语言模型(MLLMs)设计的即插即用操作,显著减少了计算中的视觉token数量,提高效率并促进高分辨率图像合成。除了实现超高分辨率图像生成外,生成质量也非常出色。基于27亿参数的Llama模型,新方法显著超越同类自回归模型,甚至优于强扩散模型:在GenEval基准测试中,获得0.62的综合得分,在GenAI-Bench上,取得0.77的VQAScore,创造了新的技术标杆。

参考文献:
[1] 详情点击:https://mp.weixin.qq.com/s/idGmfXkEuI6PzNY52gQDnA
[2] 链接:https://arxiv.org/abs/2504.17789
[3] https://www.marktechpost.com/2025/04/25/meta-ai-introduces-token-shuffle-a-simple-ai-approach-to-reducing-image-tokens-in-transformers/



知识星球服务内容:Dify源码剖析及答疑,Dify对话系统源码,NLP电子书籍报告下载,公众号所有付费资料。加微信buxingtianxia21进NLP工程化资料群

(文:NLP工程化)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往