Openai发布Agent基准测试,小米开源自动驾驶框架,字节跳动发布Seed-Thinking-v1.5技术细节

关注我,记得标星⭐️不迷路哦~


✨ 1: BrowseComp

BrowseComp 是一个简单但具有挑战性的基准测试,旨在衡量 AI 代理定位难以查找的信息的能力

BrowseComp 包含 1,266 个复杂的问题。这些问题的答案简短且原则上只有一个正确答案。BrowseComp 的问题被设计成难以找到但易于验证。为了确保难度,创建问题时会检查现有模型是否无法解决,答案是否不在搜索引擎前几页,以及人类是否难以在短时间内找到答案

BrowseComp 旨在评估 AI 代理执行有用的浏览的能力,包括对互联网内容的事实性进行推理、展现浏览的持久性和深度,以及在搜索中具有创造性

在 BrowseComp 上的模型评估显示:

  • GPT-4o 和 GPT-4.5 的准确率接近于零
    ,表明其难度.
  • 启用浏览功能的 GPT-4o 准确率略有提升.
  • OpenAI o1 虽然没有浏览能力但具有更强的推理能力,表现优于具备浏览功能的 GPT-4o
    .
  • Deep Research 的性能显著优于所有其他模型,解决了约一半的问题
    。Deep Research 经过专门训练以擅长 BrowseComp 任务。

从今天开始,ChatGPT 中的记忆现在可以参考您过去的所有聊天记录,以提供更个性化的回复,利用您的偏好和兴趣,使其对写作、获取建议、学习等更有帮助。


地址:https://openai.com/index/browsecomp/

✨ 2: ReCamMaster

ReCamMaster是一种通过单视频生成摄像机控制的生成渲染,可重新捕捉具有新颖相机轨迹的视频。

ReCamMaster是一个创新的视频生成方法,它允许用户通过单个视频重新捕捉场景,并生成具有全新相机运动轨迹的视频。 简单来说,就是你给它一段视频,它可以生成一段看起来像是用不同运镜方式重新拍摄的视频。

主要功能和特点:

  • 相机控制:
     用户可以指定各种预设的相机运动轨迹,例如平移、倾斜、缩放、弧形运动等等。
  • 生成式渲染:
     基于生成式模型,ReCamMaster可以生成质量不错的视频。
  • 简易使用:
     用户可以通过上传视频到指定链接,快速体验ReCamMaster的功能,并获得生成的视频。

地址:https://github.com/KwaiVGI/ReCamMaster

✨ 3: ORION

ORION是一个端到端的自动驾驶框架,通过视觉语言模型指导动作生成,实现整体的自主驾驶。

ORION 是一个端到端(E2E)的自动驾驶框架,它利用视觉-语言模型(VLM)进行指令引导的动作生成,从而实现更强的因果推理能力。现有E2E自动驾驶方法由于因果推理能力有限,在交互式闭环评估中难以做出正确的决策。ORION 通过结合 QT-Former (用于聚合长期历史上下文)、大型语言模型(LLM,用于驾驶场景推理)和生成式规划器(用于精确轨迹预测)来解决这个问题。ORION 将推理空间和动作空间对齐,从而对视觉问答 (VQA) 和规划任务进行统一的 E2E 优化。

地址:https://github.com/xiaomi-mlab/Orion

✨ 4: Seed-Thinking-v1.5

Seed-Thinking-v1.5利用强化学习提升推理能力,在数学、编程等领域表现出色,具有广泛适用性。

Seed-Thinking-v1.5 是一个使用强化学习训练的先进推理模型,其核心特点是在给出答案前先进行充分的思考,从而提升了在各种基准测试中的表现。

性能指标:

  • 在 STEM (科学、技术、工程、数学) 和编程方面表现出色:
    • AIME 2024: 86.7
    • Codeforces: 55.0
    • GPQA: 77.3
  • 在非推理任务中也展现出良好的泛化能力,胜过 DeepSeek R1 8%的胜率。
  • 采用 Mixture-of-Experts (MoE) 架构,模型相对较小,激活参数为 200 亿个,总参数为 2000 亿个。
  • 提供两个内部基准测试集 BeyondAIME 和 Codeforces,以促进通用推理研究。

地址:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5

✨ 5: Agent-Wiz

Agent-Wiz是Python CLI工具,用于从AI框架提取agent工作流并进行自动化威胁评估。

Agent-Wiz是一个Python命令行工具,旨在帮助开发者、研究人员和安全团队理解和评估基于大型语言模型(LLM)的智能体工作流的安全性。它通过以下方式实现:

  • 提取工作流:
     通过静态代码分析,从流行的AI框架(如Autogen, LangGraph, CrewAI等)中提取智能体的工作流程。
  • 可视化:
     将提取的工作流以交互式图表的形式呈现,清晰地展示智能体、工具和数据流之间的关系。
  • 威胁评估:
     利用既定的威胁建模方法(如MAESTRO),自动生成全面的安全报告,识别潜在的漏洞。

地址:https://github.com/Repello-AI/Agent-Wiz

(文:每日AI新工具)

发表评论