排行榜归档 - 每时AI

如何选择合适的LLM做擅长的事儿？P2L微调大模型进行路由选择的实现思路

下午2时 2025/02/22 作者老刘说NLP

2025年02月22日文章介绍了P2L（Prompt-to-Leaderboard）方法，通过训练一个大型语言模型来预测人类偏好投票，并用于评估和选择最适合特定用例的模型。

下午4时 2025/01/13 作者新智元

谷歌发布的新基准测试FACTS Grounding用于评估AI模型在特定上下文中生成准确文本的能力，通过去除无效回复确保评分准确性。