AI在「赚钱锦标赛」夺冠,比人类还会做生意!躺赚时代要来了?
研究人员提出Vending-Bench模拟环境测试基于大模型的自动售货机管理能力,结果显示Claude 3.5 Sonnet表现最佳。实验还发现不同大模型在长时间运行中的表现差异较大。
研究人员提出Vending-Bench模拟环境测试基于大模型的自动售货机管理能力,结果显示Claude 3.5 Sonnet表现最佳。实验还发现不同大模型在长时间运行中的表现差异较大。
初创公司Windsurf推出首个AI软件工程模型系列SWE-1,旨在优化整个软件工程流程。该系列包括SWE-1、SWE-1-lite和SWE-1-mini,与Claude 3.7 Sonnet等前沿AI模型相比,在软件工程任务上仍落后。
PaperBench测试了多款AI模型复现ICML 2024顶会论文的能力。结果显示,Claude 3.5 Sonnet表现最好,平均得分为21.0%。研究发现当前AI在长期规划、持续调试和策略执行方面存在问题。PaperBench为评估AI科研能力提供了量化标准,有助于加速科学发现并推动开放协作。
OpenAI发布的PaperBench测评基准测试了AI复现顶级学术论文的能力,Claude 3.5 Sonnet在20篇ICML论文测试中的平均得分为21%,超过了一半的顶会论文。该基准不仅严苛要求,还开源代码鼓励研究者参与。此外,斯坦福大学的研究表明LLM能提出有创意的新想法,但其可行性有待提升。OpenAI研究员Jason Wei认为AI科学创新将有两种风格:专注特定问题或训练通用型AI系统。未来AI在科研领域的潜力巨大,包括辅助和引领重大突破。
本文介绍了当前科研人员青睐的AI模型:o3-mini、DeepSeek-R1、Llama、Claude 3.5 Sonnet和Olmo 2。它们各有优劣,但为科研人员提供了多样选择。
OpenAI 推出 SWE-Lancer 基准测试,评估 AI 模型在真实软件工程任务中的表现,涵盖独立开发和管理任务,涉及多种类型和复杂度的软件开发任务。
OpenAI发布SWE-Lancer基准测试,评估AI模型在现实任务中的编码能力。Anthropic的Claude 3.5 Sonnet表现最佳,挣得403,325美元报酬,远超GPT-4o和o1模型。