高质量数据集归档

大语言模型高质量数据集汇总（2025.5 更新）

2025年7月11日8时作者 NLP工程化

大语言模型高质量数据集汇总更新（截至2025.5）, 提供参考文献和加入知识星球途径。

AI高质量数据集交易爆发式增长

2025年7月6日16时作者财联社AI daily

北数所表示，人工智能高质量数据集需求和交易量正在快速增长。2023年12月国家数据局等发布行动计划，要求建设高质量的人工智能大模型训练数据集。目前北数所已交付1814TB数据集，并达成171笔交易，主要服务AI头部企业用于构建行业知识底座及模型训练。

同一天开源新模型，一推理一编程，MiniMax和月之暗面开卷了

2025年6月17日16时作者机器之心

Max 和月之暗面各自公布了开源新成果。
其中，MiniMax 启动了「MiniMax Week」，

端侧模型卷王诞生！MiniCPM4长文本推理提速5倍，0.5B模型屠榜同级

2025年6月10日16时作者 PaperWeekly

，带来端侧性能创新式大跃升；一款 0.5B 实力演绎以小博大，适配广泛终端场景。
MiniCPM4.

CVPR 2025｜视频抠图MatAnyone来了，一次指定全程追踪，发丝级还原

2025年4月17日23时作者机器之心

在 CVPR、NeurIPS、IJCV 等国际顶级会议与期刊上发表多篇研究成果。项目负责作者为该校研

视频推理的R1时刻！港中文、清华推出首个Video-R1，7B模型竟超GPT-4o?

2025年4月9日16时作者 PaperWeekly

港中文联合清华团队发布首个将强化学习范式应用于视频推理的模型Video-R1，该模型通过引入时序建模和混合训练机制，在权威测试中击败了GPT-4o。

Open R1 项目进展第一期

2025年3月28日14时作者 Hugging Face

和合成数据——也才过了一周。这篇文章简单聊聊:
https://github.com/hugging

MINT-1T 数据集是一个 1 万亿个文本标记和 34 亿张图像的开源数据集，扩展了现有开源数据集的 10 倍。WuDaoCorpora 是一个由北京智源人工智能研究院构建的大规模、高质量数据集。Conceptual Captions 提供超过 300 万张带有自然语言字幕的配对图像。SBU Captions 数据集中有 100 万带标题的照片描述图像。MiniGPT-4 使用高质量图文对进行微调，Ego-Exo4D 包含三种精心同步的语言视频数据集。

Figure机器人进厂打工，8小时速成物流分拣大师！自研VLA模型全面升级

2025年2月27日16时作者新智元

Figure公司通过自研VLA模型Helix，在8小时内训练完成机器人包裹分拣任务，并实现超越人类的效率和精度，展示了视觉-运动控制策略在物流场景中的巨大潜力。

微软Phi-4家族新增两位成员，5.6B多模态单任务超GPT-4o，3.8B小模型媲美千问7B

2025年2月27日16时作者机器之心

光。
2024 年底，微软正式发布了 Phi-4—— 在同类产品中表现卓越的小型语言模型（SLM）。

2025 年 7 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31