数字视觉提示归档

AI模仿人类看漫画，视频大模型时序定位能力新SOTA

下午1时 2024/12/11 下午12时 2024/11/23 作者量子位

NumPro通过为视频帧添加数字标识符的方式提升了视频大模型的时序定位能力。无需训练设置即可增强模型对事件发生时刻的理解，实验结果显示其显著优于现有方法，并且不影响模型通用视频理解能力。