长视频性能提升6.6%!用文本数据撬动视频理解
Sparrow 通过利用长文本 QA 数据合成“伪视频指令数据”,在仅使用30K混合数据的情况下超越了100K视频数据,且在数据规模扩展上性能优势更为明显。该研究重新审视了合成数据的特性,并提出了一种新的数据增强方法——Sparrow,显著提升了模型在长视频理解上的表现。
Sparrow 通过利用长文本 QA 数据合成“伪视频指令数据”,在仅使用30K混合数据的情况下超越了100K视频数据,且在数据规模扩展上性能优势更为明显。该研究重新审视了合成数据的特性,并提出了一种新的数据增强方法——Sparrow,显著提升了模型在长视频理解上的表现。