告别刷榜内卷!清华×百度提出Feedbacker,开启LLM深度洞察新评估时代

本文提出评估范式的转变,从排名竞争转向诊断反馈。通过引入树状能力图谱、动态评估标准和可视化分析等创新组件,开发了Feedbacker框架,用于提升LLM的评估效率与准确性。

Token刺客来袭!AgentPrune一键屏蔽废话智能体,成本暴降60%性能翻盘

由同济大学、香港中文大学等机构提出的新技术AgentPrune,通过多智能体剪枝技术解决基于大模型的多智能体系统中的通信冗余问题。该技术能大幅降低通信开销,提升系统的鲁棒性和任务完成效率。