表格结构识别归档 - 每时AI

DeepMind悄悄发布PaliGemma二代，最易微调「视觉语言全能王」来了，多项任务登顶SOTA

下午12时 2024/12/11 作者新智元

谷歌发布的PaliGemma 2模型在多个视觉语言任务上取得领先成绩，支持多种分辨率和参数规模，并且在OCR、表格识别、乐谱识别及医学报告生成等任务中表现突出。