OpenAI推出真实世界百万报酬AI编程能力测试基准:实测Claude 3.5 最强!

OpenAI联合一众大佬发布SWE-Lancer,一个评估前沿LLM在真实软件工程任务中的基准测试。它从Upwork精选了超过1400个真实的软件工程任务,总价值高达100万美元。SWE-Lancer包含个人贡献者和技术领导者的两种类型的任务,采用端到端测试模拟真实环境。研究结果显示模型表现仍有提升空间,OpenAI开源了数据集以促进更多研究。

全球首测!OpenAI开源SWELancer,大模型冲击100万年薪

专注AIGC领域的专业社区分享了OpenAI开源的SWE-Lancer测试基准,用于评估大模型处理真实开发任务的能力。该测试集包含1488个真实的开发任务,总价值达100万美元。SWE-Lancer采用端到端测试方法和用户工具来模拟真实场景,揭示了大模型在复杂软件工程任务中的局限性。

突袭!参议院的一封质疑信,把Sam Altman 整笑了!

Sam Altman 回应参议院质疑OpenAI百万捐款时称这是个人行为,引发网友热议。科技巨头在选举后向特朗普就职基金捐赠数百万美元,引起质询。Altman认为这与公司无关,而民主党捐款则无需如此关注。话题引发了关于是否存在双重标准的讨论。

报告发现,白噪声应用程序在主要AI音频广告欺诈中被利用

数字媒体软件公司DoubleVerify发布报告称,白噪音应用被用于音频广告欺诈。此类应用通过伪造流量生成虚假展示欺骗广告商,导致经济损失。研究人员发现多个欺诈计划利用高级技术伪造服务器地址和请求来规避检测。