自动评估基准 | 一些评估测试集 下午10时 2025/01/08 作者 Hugging Face 近年来开发的评估数据集列表,但由于LLM的发展而可能不再适合当前评估方法。部分数据集在互联网上公开多年。