关注我,记得标星⭐️不迷路哦~
✨ 1: BrowseComp
BrowseComp 是一个简单但具有挑战性的基准测试,旨在衡量 AI 代理定位难以查找的信息的能力。

BrowseComp 包含 1,266 个复杂的问题。这些问题的答案简短且原则上只有一个正确答案。BrowseComp 的问题被设计成难以找到但易于验证。为了确保难度,创建问题时会检查现有模型是否无法解决,答案是否不在搜索引擎前几页,以及人类是否难以在短时间内找到答案。
BrowseComp 旨在评估 AI 代理执行有用的浏览的能力,包括对互联网内容的事实性进行推理、展现浏览的持久性和深度,以及在搜索中具有创造性。
在 BrowseComp 上的模型评估显示:
- GPT-4o 和 GPT-4.5 的准确率接近于零
,表明其难度. -
启用浏览功能的 GPT-4o 准确率略有提升. - OpenAI o1 虽然没有浏览能力但具有更强的推理能力,表现优于具备浏览功能的 GPT-4o
. - Deep Research 的性能显著优于所有其他模型,解决了约一半的问题
。Deep Research 经过专门训练以擅长 BrowseComp 任务。
从今天开始,ChatGPT 中的记忆现在可以参考您过去的所有聊天记录,以提供更个性化的回复,利用您的偏好和兴趣,使其对写作、获取建议、学习等更有帮助。
地址:https://openai.com/index/browsecomp/
✨ 2: ReCamMaster
ReCamMaster是一种通过单视频生成摄像机控制的生成渲染,可重新捕捉具有新颖相机轨迹的视频。
ReCamMaster是一个创新的视频生成方法,它允许用户通过单个视频重新捕捉场景,并生成具有全新相机运动轨迹的视频。 简单来说,就是你给它一段视频,它可以生成一段看起来像是用不同运镜方式重新拍摄的视频。
主要功能和特点:
- 相机控制:
用户可以指定各种预设的相机运动轨迹,例如平移、倾斜、缩放、弧形运动等等。 - 生成式渲染:
基于生成式模型,ReCamMaster可以生成质量不错的视频。 - 简易使用:
用户可以通过上传视频到指定链接,快速体验ReCamMaster的功能,并获得生成的视频。
地址:https://github.com/KwaiVGI/ReCamMaster
✨ 3: ORION
ORION是一个端到端的自动驾驶框架,通过视觉语言模型指导动作生成,实现整体的自主驾驶。

ORION 是一个端到端(E2E)的自动驾驶框架,它利用视觉-语言模型(VLM)进行指令引导的动作生成,从而实现更强的因果推理能力。现有E2E自动驾驶方法由于因果推理能力有限,在交互式闭环评估中难以做出正确的决策。ORION 通过结合 QT-Former (用于聚合长期历史上下文)、大型语言模型(LLM,用于驾驶场景推理)和生成式规划器(用于精确轨迹预测)来解决这个问题。ORION 将推理空间和动作空间对齐,从而对视觉问答 (VQA) 和规划任务进行统一的 E2E 优化。
地址:https://github.com/xiaomi-mlab/Orion
✨ 4: Seed-Thinking-v1.5
Seed-Thinking-v1.5利用强化学习提升推理能力,在数学、编程等领域表现出色,具有广泛适用性。

Seed-Thinking-v1.5 是一个使用强化学习训练的先进推理模型,其核心特点是在给出答案前先进行充分的思考,从而提升了在各种基准测试中的表现。
性能指标:
-
在 STEM (科学、技术、工程、数学) 和编程方面表现出色: -
AIME 2024: 86.7 -
Codeforces: 55.0 -
GPQA: 77.3 -
在非推理任务中也展现出良好的泛化能力,胜过 DeepSeek R1 8%的胜率。 -
采用 Mixture-of-Experts (MoE) 架构,模型相对较小,激活参数为 200 亿个,总参数为 2000 亿个。 -
提供两个内部基准测试集 BeyondAIME 和 Codeforces,以促进通用推理研究。
地址:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5
✨ 5: Agent-Wiz
Agent-Wiz是Python CLI工具,用于从AI框架提取agent工作流并进行自动化威胁评估。

Agent-Wiz是一个Python命令行工具,旨在帮助开发者、研究人员和安全团队理解和评估基于大型语言模型(LLM)的智能体工作流的安全性。它通过以下方式实现:
- 提取工作流:
通过静态代码分析,从流行的AI框架(如Autogen, LangGraph, CrewAI等)中提取智能体的工作流程。 - 可视化:
将提取的工作流以交互式图表的形式呈现,清晰地展示智能体、工具和数据流之间的关系。 - 威胁评估:
利用既定的威胁建模方法(如MAESTRO),自动生成全面的安全报告,识别潜在的漏洞。
地址:https://github.com/Repello-AI/Agent-Wiz
(文:每日AI新工具)