OmAgent v0.2.2 新版本正式发布,新版本引入了智能体算子「Agent Operator」,使开发者能够便捷地在项目中调用子工作流实现复杂智能体功能,目前已涵盖 CoT、SC-CoT、PoT、ReAct 等算子,能够帮助开发者快速构建复杂智能体功能,极大地拓展了应用的可能性。
同时,OmAgent v0.2.2 版本还推出了「Open Agent Leaderboard」这一开源大语言模型智能体评测平台,依据智能体算子对不同算子和模型效果进行评估对比,且算子实现与原论文代码结果对齐,确保评估公平客观。
https://github.com/om-ai-lab/OmAgent
Open Agent Leaderboard
开源大语言模型智能体评测平台
平台的主要贡献包括:
-
统一实现了多个主流智能体算法(CoT、SC-CoT、PoT、ReAct 等),确保实现的一致性和可比性; -
建立了标准化的评测流程,包括数据处理和结果评估; -
提供了多维度的评测指标,包括准确率、推理成本等; -
对智能体算法和大语言模型的组合进行了综合效果评估; -
开源了所有代码和评测结果,方便社区验证和使用。
-
支持多个基准数据集:gsm8k、AQuA ,未来将开放更多数据集和任务,请关注我们 -
提供准确率、通过率等多维度评估 -
计算推理成本,帮助开发者权衡性能和效率
-
Chain-of-thought (CoT)
-
Self-Consistency CoT (SC-CoT)
-
Program of Thoughts (PoT)
-
ReAct …
三、多模型兼容
-
GPT-3.5-turbo -
Doubao-lite-32k -
开放扩展支持更多模型
四、简单易用
-
基于 OmAgent 框架开发 (https://github.com/om-ai-lab/OmAgent) -
提供完整的评测流程

关注下方链接,获取最新的评测结果:
https://github.com/om-ai-lab/open-agent-leaderboard
您可以在 GitHub 查看更多详情:
https://github.com/om-ai-lab/OmAgent/releases/tag/v0.2.2
(文:PaperWeekly)