Openai发布Agent基准测试，小米开源自动驾驶框架，字节跳动发布Seed-Thinking-v1.5技术细节

关注我，记得标星⭐️不迷路哦～

✨ 1: BrowseComp

BrowseComp 是一个简单但具有挑战性的基准测试，旨在衡量 AI 代理定位难以查找的信息的能力。

BrowseComp 包含 1,266 个复杂的问题。这些问题的答案简短且原则上只有一个正确答案。BrowseComp 的问题被设计成难以找到但易于验证。为了确保难度，创建问题时会检查现有模型是否无法解决，答案是否不在搜索引擎前几页，以及人类是否难以在短时间内找到答案。

BrowseComp 旨在评估 AI 代理执行有用的浏览的能力，包括对互联网内容的事实性进行推理、展现浏览的持久性和深度，以及在搜索中具有创造性。

在 BrowseComp 上的模型评估显示：

GPT-4o 和 GPT-4.5 的准确率接近于零

，表明其难度.
启用浏览功能的 GPT-4o 准确率略有提升.
OpenAI o1 虽然没有浏览能力但具有更强的推理能力，表现优于具备浏览功能的 GPT-4o

.
Deep Research 的性能显著优于所有其他模型，解决了约一半的问题

。Deep Research 经过专门训练以擅长 BrowseComp 任务。

从今天开始，ChatGPT 中的记忆现在可以参考您过去的所有聊天记录，以提供更个性化的回复，利用您的偏好和兴趣，使其对写作、获取建议、学习等更有帮助。

地址：https://openai.com/index/browsecomp/

✨ 2: ReCamMaster

ReCamMaster是一种通过单视频生成摄像机控制的生成渲染，可重新捕捉具有新颖相机轨迹的视频。

ReCamMaster是一个创新的视频生成方法，它允许用户通过单个视频重新捕捉场景，并生成具有全新相机运动轨迹的视频。简单来说，就是你给它一段视频，它可以生成一段看起来像是用不同运镜方式重新拍摄的视频。

主要功能和特点:

相机控制:

用户可以指定各种预设的相机运动轨迹，例如平移、倾斜、缩放、弧形运动等等。
生成式渲染:

基于生成式模型，ReCamMaster可以生成质量不错的视频。
简易使用:

用户可以通过上传视频到指定链接，快速体验ReCamMaster的功能，并获得生成的视频。

地址：https://github.com/KwaiVGI/ReCamMaster

✨ 3: ORION

ORION是一个端到端的自动驾驶框架，通过视觉语言模型指导动作生成，实现整体的自主驾驶。

ORION 是一个端到端（E2E）的自动驾驶框架，它利用视觉-语言模型（VLM）进行指令引导的动作生成，从而实现更强的因果推理能力。现有E2E自动驾驶方法由于因果推理能力有限，在交互式闭环评估中难以做出正确的决策。ORION 通过结合 QT-Former （用于聚合长期历史上下文）、大型语言模型（LLM，用于驾驶场景推理）和生成式规划器（用于精确轨迹预测）来解决这个问题。ORION 将推理空间和动作空间对齐，从而对视觉问答 (VQA) 和规划任务进行统一的 E2E 优化。

地址：https://github.com/xiaomi-mlab/Orion

✨ 4: Seed-Thinking-v1.5

Seed-Thinking-v1.5利用强化学习提升推理能力，在数学、编程等领域表现出色，具有广泛适用性。

Seed-Thinking-v1.5 是一个使用强化学习训练的先进推理模型，其核心特点是在给出答案前先进行充分的思考，从而提升了在各种基准测试中的表现。

性能指标:

在 STEM (科学、技术、工程、数学) 和编程方面表现出色：

AIME 2024: 86.7
Codeforces: 55.0
GPQA: 77.3

在非推理任务中也展现出良好的泛化能力，胜过 DeepSeek R1 8%的胜率。
采用 Mixture-of-Experts (MoE) 架构，模型相对较小，激活参数为 200 亿个，总参数为 2000 亿个。
提供两个内部基准测试集 BeyondAIME 和 Codeforces，以促进通用推理研究。

地址：https://github.com/ByteDance-Seed/Seed-Thinking-v1.5

✨ 5: Agent-Wiz

Agent-Wiz是Python CLI工具，用于从AI框架提取agent工作流并进行自动化威胁评估。

Agent-Wiz是一个Python命令行工具，旨在帮助开发者、研究人员和安全团队理解和评估基于大型语言模型(LLM)的智能体工作流的安全性。它通过以下方式实现：

提取工作流：

通过静态代码分析，从流行的AI框架（如Autogen, LangGraph, CrewAI等）中提取智能体的工作流程。
可视化：

将提取的工作流以交互式图表的形式呈现，清晰地展示智能体、工具和数据流之间的关系。
威胁评估：

利用既定的威胁建模方法（如MAESTRO），自动生成全面的安全报告，识别潜在的漏洞。

地址：https://github.com/Repello-AI/Agent-Wiz

（文：每日AI新工具）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

✨ 1: BrowseComp

✨ 2: ReCamMaster

✨ 3: ORION

✨ 4: Seed-Thinking-v1.5

✨ 5: Agent-Wiz

发表评论 取消回复

发表评论取消回复