Agent Leaderboard：为AI Agent任务打造的LLM排行榜

上午8时 2025/03/03 作者 NLP工程化

Agent Leaderboard：为AI Agent任务打造的LLM排行榜，精准评估语言模型在复杂场景下的工具使用能力。亮点：1. 评估12种私有模型和5种开源模型；2. 采用Tool Selection Quality（TSQ）作为核心指标，量化工具选择质量；3. 覆盖21个领域和390个API交互场景。

参考文献：
[1] http://github.com/rungalileo/agent-leaderboard
[2] https://huggingface.co/spaces/galileo-ai/agent-leaderboard

（文：NLP工程化）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复