医疗大模型开放评测平台MedBench升级至3.0版本,新增医疗多模态评测能力,针对真实应用场景,构建了文献问答、复杂推理、临床危急情况识别评测数据集,并继续向业界开放医疗大模型能力评测服务。


参考文献:
[1] 司南MedBench3.0全面上新,4200次评测揭示医疗大模型能力长项与核心短板:https://mp.weixin.qq.com/s/KBqkLjH8fjCpb8n8gcl-KA
[2] Benchmarking Chinese Medical LLMs: A Medbench-based Analysis of Performance Gaps and Hierarchical Optimization Strategies:https://arxiv.org/abs/2503.07306
(文:NLP工程化)