一招缓解LLM偏科!调整训练集组成,“秘方”在此上交大&上海AILab等

MLNLP社区发布了一项创新方法IDEAL,用于解决大型语言模型(LLM)在多任务场景下可能出现的偏科现象。通过调整监督微调(SFT)训练集组成,研究团队发现优化后的模型在多种领域上的综合性能显著提升。

CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分

Video-Bench通过链式查询和少样本评分技术,实现了对视频生成质量的高效评估。该框架能够全面覆盖视频生成的多个维度,并在视频-条件一致性、视频质量等方面显著优于现有方法。

103K「硬核」题,让大模型突破数学推理瓶颈

本文介绍了一篇关于 DeepMath-103K 数据集的研究论文,该数据集旨在解决当前大语言模型在数学推理训练中的数据瓶颈问题。论文详细描述了其高难度、新颖性和纯净性的特点,并展示了在多个基准测试中的卓越性能。

一招缓解LLM偏科!调整训练集组成,“秘方”在此 上交大&上海AI Lab等

上海交通大学及上海AI Lab联合团队提出IDEAL方法,通过调整SFT训练集的组成来提升LLM在多种领域上的综合性能。研究发现增加训练数据数量并不一定提高模型整体表现,反而可能导致“偏科”。

AI集体“听不懂”!MMAR基准测试揭示音频大模型巨大短板

研究团队发布了一项包含1000个高质量问题的音频理解评估基准MMAR,测试了30款模型的表现。结果表明大多数开源模型在面对复杂音频推理任务时表现不佳,而闭源模型Gemini 2.0 Flash则表现出色。该基准展示了当前AI在音频理解方面的不足,并强调了数据和算法创新的重要性。

单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2

智源研究院联合上海交通大学发布新一代超长视频理解模型Video-XL-2,单张显卡即可高效处理万帧视频,编码2048帧仅需12秒。该模型在多个维度表现优异,并向社区开放权重,有望在影视分析、异常检测等场景中广泛应用。

ICML 2025 如何在合成文本数据时避免模型崩溃?

生成式人工智能技术下合成数据成为大模型训练的重要组成部分。然而,研究团队提出了一种创新方法Token-Level Editing,以避免模型崩溃问题,通过微编辑而非纯生成来构建稳定、泛化性强的半合成数据。