DeepMind悄悄发布PaliGemma二代,最易微调「视觉语言全能王」来了,多项任务登顶SOTA 下午12时 2024/12/11 作者 新智元 谷歌发布的PaliGemma 2模型在多个视觉语言任务上取得领先成绩,支持多种分辨率和参数规模,并且在OCR、表格识别、乐谱识别及医学报告生成等任务中表现突出。