长视频性能提升6.6%!用文本数据撬动视频理解

Sparrow 通过利用长文本 QA 数据合成“伪视频指令数据”,在仅使用30K混合数据的情况下超越了100K视频数据,且在数据规模扩展上性能优势更为明显。该研究重新审视了合成数据的特性,并提出了一种新的数据增强方法——Sparrow,显著提升了模型在长视频理解上的表现。

本地也能运行Deep Research!支持arXiv平台,兼容PDF、Markdown等

本地运行的Deep Research项目能够提供深入的研究分析和信息整合功能,同时保护用户隐私。它支持多种搜索引擎、文档格式搜索以及智能分块检索。通过示例展示了强大的研究能力和跨领域分析能力。

上交大等提出MM-Eureka:R1-Zero的「Aha Moment」同样存在于多模态推理

本文介绍了一种新的多模态大规模强化学习框架MM-Eureka,该框架能够稳定地训练包括InternVL2.5-Instruct-8B和InternVL2.5-Pretrained-38B在内的多种大型模型,并使用较少的数据实现了性能的提升。

重磅! Claude 3.7 Max上线Cursor :史上最强,代码能力再次飞跃

Claude 3.7 Max 是 Cursor 推出的新模型,专为硬核开发者设计。它具有更高的上下文窗口、更多的工具调用限制以及更智能的代码理解和生成能力,价格按用量计费。适合处理复杂代码项目和精细代码维护的开发者。