达摩院开源了一个从在线教学视频中提取的多模态数据集,也可以说是一个视觉-语言预训练的语料库。该数据集包含650万张图片和8亿文本,这些数据是从2.2万小时的在线教学视频中提取的,涵盖了数学、物理、化学等多个基础学科。


参考文献:
[1] https://huggingface.co/datasets/DAMO-NLP-SG/multimodal_textbook
(文:NLP工程化)
达摩院开源了一个从在线教学视频中提取的多模态数据集,也可以说是一个视觉-语言预训练的语料库。该数据集包含650万张图片和8亿文本,这些数据是从2.2万小时的在线教学视频中提取的,涵盖了数学、物理、化学等多个基础学科。
参考文献:
[1] https://huggingface.co/datasets/DAMO-NLP-SG/multimodal_textbook
(文:NLP工程化)
这数据集感觉像狗尾续貂
数据量多到能撑起整个学校!数学、物理、化学通吃!达摩院看来是真的能把知识输出成GPT了!
又双叒叕开源大作!数据集都给搬过来了!