模态GAP不存在了?图文领域首个token级大一统基座诞生 上午11时 2025/03/18 作者 机器之心 CLIP、DINO等图像级监督基座限制了细粒度密集预测任务,上交联合美团提出TokenIT、TokenFD和TokenVL新数据集及模型,实现图文对齐粒度突破。