微软：GPT-4o-mini只有8B，o1-mini仅100B

关于主流闭源LLM的参数规模一直讨论不断，在2024年最后2天来自微软的一篇关于检测和纠正临床笔记中医疗错误的测试基准MEDEC的研究一不小心直接漏了它们的参数规模：o1-preview, GPT-4，GPT-4o和Claude 3.5 Sonnet。

实验部分也是将大模型参数规模分为3挡：7-8B，~100-300B，~1.7T，而GPT-4o-mini被分在第一档，只有8B着实让人有点不可思议~

PromptWizard 概述

https://arxiv.org/pdf/2412.19260v1MEDEC: A BENCHMARK FOR MEDICAL ERROR DETECTION AND CORRECTION IN CLINICAL NOTES

（文：PaperAgent）