Agent Leaderboard:为AI Agent任务打造的LLM排行榜,精准评估语言模型在复杂场景下的工具使用能力。亮点:1. 评估12种私有模型和5种开源模型;2. 采用Tool Selection Quality(TSQ)作为核心指标,量化工具选择质量;3. 覆盖21个领域和390个API交互场景。



参考文献:
[1] http://github.com/rungalileo/agent-leaderboard
[2] https://huggingface.co/spaces/galileo-ai/agent-leaderboard
(文:NLP工程化)