
MINT-1T
数据集链接:http://edvvz.ensl.cn/c3
MINT-1T 是一个开源的 M终极模态 INTerleaved 数据集,具有 1 万亿个文本标记和 34 亿张图像,比现有开源数据集扩展了10 倍。

WuDaoCorpora Text文本预训练数据集
数据集链接:http://edvvt.ensl.cn/ce
WuDaoCorpora是北京智源人工智能研究院(智源研究院)构建的大规模、高质量数据集,用于支撑大模型训练研究。目前由文本、对话、图文对、视频文本对四部分组成,分别致力于构建微型语言世界、提炼对话核心规律、打破图文模态壁垒、建立视频文字关联,为大模型训练提供坚实的数据支撑。
Conceptual Captions
数据集链接:http://edvv7.ensl.cn/09
Conceptual Captions 数据集有超过 300 万张配对图像 带有自然语言字幕。

SBU Captions Dataset
数据集链接:http://edvvj.ensl.cn/76
100 万张带标题的照片描述图像

MiniGPT-4
数据集链接:http://edvv5.ensl.cn/7a
用于MiniGPT-4模型的第二阶段微调,包含高质量的图文对数据。

Ego-Exo4D
数据集链接:https://ego-exo4d-data.org/
Ego-Exo4D 呈现三种精心同步的自然 与视频配对的语言数据集。(1) 专家评论, 揭示细微的技能。(2) 参与者提供 Narrate-and-act 描述。(3) 支持浏览的一句话原子作描述, 挖掘数据集,并解决 视频语言学习

(文:极市干货)