作者:李姝
编辑:李宝珠
转载请联系本公众号获得授权,并标明来源
HyperAI超神经为大家准备了 10 个中文医学相关的数据集,支持在线使用与加速下载,快来体验吧~
医疗人工智能的快速发展离不开高质量数据集的支持。从疾病诊断到药物研发,再到个性化医疗,数据集在推动机器视觉、大模型等应用于医学领域中发挥着不可或缺的作用。
医学数据集的形式多样,涵盖了不同维度和领域的数据资源。例如,在疾病诊断领域,像 RJUA-QA 这样的问答数据集推动了复杂医学知识的自动化应用;而在中医药领域,神农中医药数据集整合了传统中医药文献、临床案例和药方数据。
针对于此,本文整理了医学领域的 10 个数据集,涵盖神农中医药、中医药古籍、医学推理、医学问答……旨在帮助研究人员快速了解这些数据资源的分布与特点,并为其在具体研究问题中的应用提供启发。
点击查看更多开源数据集:
https://go.hyper.ai/SjWDr
扫码备注「数据集」加入讨论群↓
中文医学数据集汇总
1
预估大小:2.34 MB
下载地址:https://go.hyper.ai/rIwcK
该数据集是一个创新的医学泌尿外科专业问答推理数据集,由蚂蚁集团医学 LLM(大语言模型)团队与上海交通大学医学院附属仁济医院泌尿外科专家团队合作创建。其以 Q-context-A(问题-上下文-答案)格式呈现,其中的病例数据由专业医生根据临床经验编写,不涉及患者和医生的任何个人隐私。
2
预估大小:279.64 MB
下载地址:https://go.hyper.ai/lM5sd
该数据集为中文医疗问答数据集,包含 6 个不同医疗科室文件夹,分别为:男科 94,596 个问答对、内科 220,606 个问答对、妇产科 183,751 个问答对、肿瘤科 75,553 个问答对、儿科 101,602 个问答对、外科 115,991 个问答对,总计 792,099 条数据。每个文件夹下有一个 csv 文件。
3
预估大小:118.35 MB
下载地址:https://go.hyper.ai/MCH57
这是一个为运行医学聊天机器人而设计的实验数据集,它包含 256,916 条患者与医生之间的对话。
4
预估大小:28.98 MB
下载地址:https://go.hyper.ai/iJsGu
该数据集是专门为中医药领域设计的大规模语言模型训练和评估的数据集。包含超 11 万个的指令数据,这些数据通过以实体为中心的自指令方法生成,围绕中医药领域的核心实体和不同意图场景,不仅能够提升模型在中医药相关问题的回答能力,还能辅助中医诊断,提供个性化的医疗建议。
5
预估大小:80.49 MB
下载地址:https://go.hyper.ai/pyHEs
该数据集包含了约 700 项中医药古籍文本,涵盖了从先秦至清末民国的历代医药典籍。这些文献不仅包括了医学理论、方剂学、药物学等内容,还包含了丰富的临床案例和医学百科知识。
6
预估大小:341.69 MB
下载地址:https://go.hyper.ai/cIHaP
该数据集是一个专注于中医领域的高质量数据集,包含约 1GB 的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集主要由非网络来源的内部数据构成,99% 为简体中文内容,质量优异,信息密度可观,适用于预训练或继续预训练用途。
7
预估大小:737.32 MB
下载地址:https://go.hyper.ai/cCrcT
这个中文医疗数据集是一个全面的资源,用于开发和训练能够在医疗领域提供专业对话和建议的语言模型。它结合了多种类型的数据,包括百科知识、教材文本、实际医患对话以及评价数据,旨在提升模型的准确性和实用性。
8
下载地址:https://go.hyper.ai/BAVNR
该数据集由香港中文大学和深圳市大数据研究院于 2024 年发布,专为微调 HuatuoGPT-o1 这一医学大语言模型而设计,旨在提升其在复杂医学推理任务中的表现。
9
预估大小:20.69 MB
下载地址:https://go.hyper.ai/ux6FF
该数据集是一个全面多语言医学能力测试基准数据集,由上海交通大学人工智能学院智慧医疗团队于 2024 年开发,旨在评估医学领域多语言模型的发展,涵盖了 6 种语言和 21 种医学子领域。
10
预估大小:31.05 GB
下载地址:https://go.hyper.ai/K8RcQ
该数据集是一个由上海交通大学人工智能学院智慧医疗团队于 2024 年构建的多语言医疗语料库,它包含了约 255 亿个 tokens,涵盖了 6 种主要语言:英语、中文、日语、法语、俄语和西班牙语。
以上就是 HyperAI超神经为大家汇总的中文医学数据集,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!
关于 HyperAI超神经 (hyper.ai)
HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区,致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:
* 为 1300+ 公开数据集提供国内加速下载节点
* 收录 400+ 经典及流行在线教程
* 解读 200+ AI4Science 论文案例
* 支持 500+ 相关词条查询
* 托管国内首个完整的 Apache TVM 中文文档
访问官网开启学习之旅:
https://hyper.ai/
戳“阅读原文”,免费获取海量数据集资源!
(文:HyperAI超神经)