HealthBench
OpenAI深夜开源HealthBench,60个国家合力开发5000段真实对话
今天凌晨,OpenAI开源了面向医疗大模型测试的HealthBench。该测试集由262名医生打造,包含5000段对话,采用多轮对话形式,显著提升了大模型在医疗领域的表现。HealthBench展示了7个主题和5个轴来评估模型性能,包括准确性、完整性等。
今天凌晨,OpenAI开源了面向医疗大模型测试的HealthBench。该测试集由262名医生打造,包含5000段对话,采用多轮对话形式,显著提升了大模型在医疗领域的表现。HealthBench展示了7个主题和5个轴来评估模型性能,包括准确性、完整性等。