9. 智能体数据集和排行榜
为了加速该领域的研究,我们分别针对多智能体游戏和智能体视觉语言任务提出了两个基准。我们将发布两个新数据集 -“美食世界”和“VideoAnalytica”- 以及一组基线模型,鼓励参与者探索新模型、系统,并在我们排行榜的测试集上提交他们的结果。
9.1 用于多智能体游戏的“美食世界”数据集
美食世界是一款基于文本的游戏,让人想起 Overcooked!它为人工智能驱动的智能体提供了一个合作和协同游戏的平台。此数据集将测试多智能体系统的协作效率,提供关于 LLM 和其他系统如何在动态场景中协同工作的见解。特别是,数据集将侧重于智能体对目标的理解程度,以及智能体之间的协调程度。此数据集中支持两种模式:集中式调度程序模式和分散式模式。参与者可以选择一种游戏模式并向我们的排行榜提交。
9.1.1 基准
对于我们的竞赛,我们将发布一个基准,即美食世界基准,其中包括一个包含可扩展任务定义文件的文本界面,以及一个用于多智能体交互和人机交互的界面。我们介绍了游戏交互任务,其目标是生成相关的、适当的、可以最大化协作效率的多智能体协作策略。我们使用提议的评估指标 CoS 来评估协作效率。“美食世界”数据集由微软、加州大学洛杉矶分校和斯坦福大学收集。竞赛的目标是探索不同的、现有的和新颖的、接地的 LLM 和交互式技术如何使用此基准执行,并为多智能体游戏基础设施的任务建立强大的基线。美食世界的数据集包括:
-
• 精选的定义明确的多智能体协作任务。 -
• 促进智能体交互的 API 系统。 -
• 自动评估系统。
9.1.2 任务
-
• 我们提供了一个数据集和相关的基准,称为 Microsoft MindAgent,并相应地向研究社区发布了一个数据集“美食世界”。 -
• 我们将提供基准来评估和排名提交的“MindAgent”算法。我们还将提供使用流行基础设施生成的基线结果。
9.1.3 指标和评判
多智能体协作效率的质量由新的“cos”自动度量 (来自 MindAgent (Gong 等人, 2023a)) 确定。我们指标的最终评分计算为多智能体系统在所有任务上的评估协作效率指标的平均值。将要求人工评估员对单个响应进行评分,并对用户与智能体的交互的参与度、广度和总体质量提供主观判断。
9.1.4 评估
-
• 自动评估。我们计划发布一个排行榜,从发布日期 (待定) 开始,注册的参与者将被要求提交他们在与数据集“美食世界” (我们公开发布的排行榜数据集) 相关的任务上的结果。结果提交将于结束日期 (待定) 关闭。每个团队都需要提交他们在测试集上生成的结果,以进行“cos”指标的自动评估。 -
• 我们排行榜上的人工评估。排行榜参与者需要提供由本地评估脚本生成的提交文件。我们将使用 evalAI 系统检查提交文件,并可选择为顶级竞赛竞争者重新运行代码。因此,团队还必须提交他们的代码以及有关如何运行其代码的自述文件。人工评估将由组织团队执行。 -
• 获胜者公布。我们将公布获胜者并发布提交的最终评分在我们的排行榜上。
9.2 音频-视频-语言预训练数据集。
我们介绍了 VideoAnalytica:一个用于分析视频演示理解的新基准。VideoAnalytica 侧重于利用视频演示来帮助更好地理解嵌入在长篇教学视频中的复杂、高级推理。目标是评估视频语言模型的认知推理能力,将它们从单纯的识别任务和基本理解推向更复杂和细致的视频理解。至关重要的是,VideoAnalytica 强调整合多种模态,例如音频、视频和语言,以及模型应用领域特定知识的能力,以对视频中呈现的信息进行上下文化和解释。具体来说,VideoAnalytica 涉及两个主要任务:
-
1. 视频文本检索:此任务涉及从教学视频中准确检索相关文本。挑战在于区分相关和不相关的信息,因此需要对视频内容有深入的了解,并分析演示以检索正确的查询。为了进一步增加这些任务的复杂性,我们在大型语言模型生成的数据集中引入了硬负例。我们对生成的负例进行人工验证,并删除使任务无效和不公平的实例 (例如,有效的负例)。 -
2. 视频辅助信息问答:此任务要求模型根据从视频中提取的信息回答问题。重点是需要分析推理和对视频演示的透彻理解的复杂问题。
为了促进用于分析视频理解的音频-视频-语言智能体的开发,我们为 VideoAnalytica 中的两个任务引入了一个基准排行榜。
-
• 排行榜参与者需要提交他们的解决方案以进行评估。评估将基于模型在两个任务上的表现,结果将显示在排行榜上。参与者需要提交他们的代码,以及他们的方法和方法论的详细说明。 -
• 伦理考虑:排行榜侧重于理解和解释视频内容,这可能潜在地用于监视或其他侵犯隐私的应用。因此,考虑道德影响和技术的潜在滥用至关重要。我们鼓励参与者在他们的提交中考虑这些方面,并促进 AI 的道德使用。
10. 更广泛的影响声明
本文和我们相关的论坛旨在成为创新研究的催化剂,促进将推动下一波 AI 应用的合作。通过关注多模态智能体,我们强调了人机交互、排行榜和解决方案的未来方向。我们详细介绍了我们在三个方面对更广泛的社区做出重大贡献。
首先,我们希望我们的论坛能够使 AI 研究人员立足于开发由游戏、机器人技术、医疗保健和长视频理解中的实际问题驱动的解决方案。具体来说,游戏中多模态智能体的开发可能会带来更身临其境和个性化的游戏体验,从而改变游戏行业。在机器人技术方面,自适应机器人系统的开发可能会彻底改变从制造业到农业的各个行业,从而有可能解决劳动力短缺和提高效率的问题。在医疗保健领域,使用 LLM 和 VLM 作为诊断智能体或患者护理助理可能会导致更准确的诊断、改善患者护理,并增加获得医疗服务的机会,特别是在服务欠缺的地区。此外,这些模型解释长篇视频的能力可能会产生深远的应用,从增强在线学习到改进技术支持服务。总的来说,我们论坛中涵盖的主题将对全球各行各业和人类产生重大的下游影响。
其次,我们希望我们的论坛成为 AI 从业者和研究人员的宝贵资源,作为一个平台来探索和深入理解在各种环境和情况下实施 AI 智能体所带来的各种复杂排行榜。例如,这种探索包括了解为医疗保健诊断等专业领域开发的智能体 AI 系统时的具体局限性和潜在危害。在这个领域,AI 行为中的危险幻觉等问题可能会带来重大风险,突出了精心设计和测试的关键必要性。然而,在考虑为游戏行业设计的 AI 智能体时,这些特定的排行榜可能并不同样相关或引人注目。在这些娱乐领域,开发人员可能会优先解决不同的障碍,例如需要 AI 执行更开放式的生成和展现创造力,动态适应不可预测的游戏场景和玩家交互。通过参加论坛,参与者将深入了解这些不同的环境如何决定 AI 发展的重点和方向,以及如何最好地定制 AI 解决方案以满足这些不同的需求并克服相关的排行榜。
第三,我们活动的各个要素,包括专家演讲、内容丰富的海报,尤其是我们两个排行榜的获胜者,将对多模态智能体领域的最新和重要趋势、研究方向和创新概念进行实质性但简洁的概述。这些演示将囊括关键的发现和发展,阐明多模态智能体 AI 领域的新系统、思想和技术。这种知识的组合不仅有利于我们论坛的与会者,他们希望加深他们在这个领域的理解和专业知识,而且还充当了一个充满活力和丰富的资源板。访问我们论坛网站的人可以利用这个信息库来发现和了解引领多模态智能体 AI 未来的前沿进展和创意。我们努力为该领域的新手和资深人士提供一个有用的知识库。通过利用这些资源,我们希望参与者和在线访问者都能了解正在塑造围绕多模态智能体 AI 的激动人心的格局的变革和新颖方法。
11. 伦理考虑
多模态智能体 AI 系统有许多应用。除了交互式 AI 之外,接地的多模态模型还可以帮助推动机器人和 AI 智能体的内容生成,并协助生产力应用,帮助重播、释义、动作预测或合成 3D 或 2D 场景。智能体 AI 的基本进步有助于实现这些目标,许多人将受益于对如何在模拟现实或现实世界中建模具体化和同理心的更深入理解。可以说,这些应用中的许多应用都可能产生积极的影响。但是,这项技术也可能被不良行为者使用。生成内容的智能体 AI 系统可用于操纵或欺骗人们。因此,根据负责任的 AI 指南开发这项技术非常重要。例如,明确地向用户传达内容是由 AI 系统生成的,并为用户提供控制以定制此类系统。智能体 AI 有可能被用来开发检测操纵性内容的新方法 – 部分原因是它具有大型基础模型的丰富幻觉性能 – 从而有助于解决另一个现实世界的问题。例如,1) 在健康主题中,LLM 和 VLM 智能体 (尤其是在医疗保健等敏感领域) 的道德部署至关重要。在有偏见的数据上训练的 AI 智能体可能会通过为代表性不足的群体提供不准确的诊断来加剧健康差距。此外,AI 智能体对敏感患者数据的处理引发了重大的隐私和保密问题。2) 在游戏行业,AI 智能体可以改变开发人员的角色,将他们的重点从编写非玩家角色的脚本转移到改进智能体学习过程。同样,自适应机器人系统可以重新定义制造角色,需要新的技能组合而不是取代人类工人。负责任地应对这些转变对于最大限度地减少潜在的社会经济混乱至关重要。此外,智能体 AI 专注于在模拟中学习协作策略,并且由于分布偏移,如果将策略直接应用于现实世界,则存在一些风险。应制定稳健的测试和持续的安全监控机制,以最大限度地降低现实世界场景中不可预测行为的风险。我们的“VideoAnalytica”数据集是从互联网上收集的,考虑到这不是一个完全具有代表性的来源,因此我们已经通过了微软和华盛顿大学的道德审查和法律程序。尽管如此,我们还需要了解此语料库中可能存在的偏见。数据分布可以通过多种方式进行表征。在本次研讨会中,我们已经捕获了我们数据集中智能体级别分布与其他现有数据集的不同之处。然而,单个数据集或研讨会中可以包含的内容远不止这些。我们认为,需要更多与实际任务或主题相关的方法或讨论,并且通过提供这些数据或系统。我们将专门用我们项目的一部分来讨论这些道德问题,探索潜在的缓解策略,并部署负责任的多模态 AI 智能体。我们希望通过本文帮助更多研究人员共同回答这些问题。
12. 多样性声明
通过研究 AI 智能体模型在各个领域的适应性,我们固有地接受了各种排行榜、观点和解决方案。本着这些原则,我们的项目旨在通过探索多模态和智能体 AI 中的广泛主题来建立一个多元化的社区。
考虑到这些原则,本项目专注于在物理和虚拟环境中有效交互并促进与人类有效交互的高级多模态系统。因此,我们打算聘请广泛的技术专家、从业者以及来自不同文化、国家和学术领域的专家和从业者来讨论重要主题,包括但不限于:
-
• 基础模型的应用:开发具有集成模态 (音频、图像、文本、传感器输入) 的智能体,旨在增强它们对各种应用的识别和响应能力。 -
• 通用端到端系统:开发使用大规模数据训练的端到端模型,寻求创建通用且适应性强的 AI 解决方案。 -
• 接地模态的方法:跨各种模态集成信息,增强数据处理的连贯性和有效性。 -
• 直观的人机界面:开发人与智能体之间有效且有意义的交互。 -
• 驯服 LLM/VLM:探索解决大型模型中常见问题(例如幻觉和输出中的偏见)的新方法。
我们渴望通过利用我们独特和多样的观点来拓宽我们对智能体 AI 的潜力和局限性的集体理解。我们坚信,这种方法不仅会丰富个人的观点,还会增强社区的集体知识,并促进对多模态 AI 智能体面临的广泛排行榜的更具包容性的整体观点。
推荐阅读系列文章:
(文:子非AI)