首个面向事实知识的中文视觉问答基准ChineseSimpleVQA

该基准测试包含2200个高质量问题,覆盖了8个主要话题和56个子话题,这些问题涉及从人文到科学和工程等多个领域,由淘天集团未来生活实验室团队推出。

据介绍,这是第一个系统性地衡量视觉大模型事实准确性的中文评测集,可以全面探测模型在各个领域的视觉识别能力和知识水平。

也是继提出Chinese SimpleQA 和Chinese SafetyQA之后,淘天集团算法技术未来生活实验室团队再次提出面向多模态大模型的事实知识评测基准。

参考文献:
[1] https://chinesesimplevqa.github.io/ChieseSimpleVQA.github.io/
[2] https://github.com/OpenStellarTeam/ChineseSimpleQA
[3] https://openstellarteam.github.io/ChineseSimpleQA/
[4] 多模态大模型事实正确性评估:o1最强,模型普遍过于自信,最擅长现代建筑/工程技术/科学:https://mp.weixin.qq.com/s/r4UcYGNFvp0v6MkwGuBd1g



(文:NLP工程化)

欢迎分享

发表评论