马斯克XAI归档

Claude挣钱强于o1！OpenAI开源百万美元编码基准，检验大模型钞能力

下午12时 2025/02/19 作者机器之心

OpenAI 推出并开源 SWE-Lancer 基准测试，用于评估 AI 大模型在现实世界软件工程任务中的表现。包含 1400 多个自由软件工程任务，总价值 100 万美元。包括自家 GPT-4o、o1 和 Anthropic Claude 3.5 Sonnet 在内的前沿模型未能解决大多数任务，仅 Claude 3.5 Sonnet 拿到最高报酬 403,325 美元。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30