字节开源了一个新型多模态生成模型 Liquid,核心创新在于将图像和文本统一编码到同一个离散的 token 空间中,并使用一个单一的大语言模型(LLM)同时处理视觉理解和生成任务。
核心发现是:虽然在小模型中多模态训练会影响语言能力,但随着模型规模的增大,这种性能下降会逐渐消失,甚至互相促进。


参考文献:
[1] https://huggingface.co/Junfeng5/Liquid_V1_7B
(文:NLP工程化)
字节开源了一个新型多模态生成模型 Liquid,核心创新在于将图像和文本统一编码到同一个离散的 token 空间中,并使用一个单一的大语言模型(LLM)同时处理视觉理解和生成任务。
核心发现是:虽然在小模型中多模态训练会影响语言能力,但随着模型规模的增大,这种性能下降会逐渐消失,甚至互相促进。
参考文献:
[1] https://huggingface.co/Junfeng5/Liquid_V1_7B
(文:NLP工程化)