视觉Token无缝对齐LLMs词表!V²Flow:基于LLMs实现高保真自回归图像生成

V²Flow团队发布的新开源框架V²Flow解决了视觉Token与大语言模型词表的不一致问题,实现了高保真自回归图像生成。该技术通过视觉词汇重采样器将视觉内容嵌入到LLM的词汇空间中,并使用掩码自回归流匹配解码器进行视觉重建,显著提高了压缩效率和生成质量。

SimDINO 借助编码比率正则化简化DINO并提升性能

本文介绍了一种简化DINO和DINOv2训练流程的方法,通过编码率正则化提升模型性能。该方法提出SimDINO和SimDINOv2模型,减少了复杂的调整步骤和超参数设置,实验结果表明新模型在多种下游任务中性能优于原版模型,并且对不同设计选择表现出更强的鲁棒性。