Claude 3.5 Sonnet 归档

AI在「赚钱锦标赛」夺冠，比人类还会做生意！躺赚时代要来了？

2025年5月25日16时作者新智元

研究人员提出Vending-Bench模拟环境测试基于大模型的自动售货机管理能力，结果显示Claude 3.5 Sonnet表现最佳。实验还发现不同大模型在长时间运行中的表现差异较大。

速递｜OpenAI收购案后首秀：Windsurf推出SWE-1模型，向“自研AI玩家”的战略转身

2025年5月17日16时作者 Z Potentials

初创公司Windsurf推出首个AI软件工程模型系列SWE-1，旨在优化整个软件工程流程。该系列包括SWE-1、SWE-1-lite和SWE-1-mini，与Claude 3.7 Sonnet等前沿AI模型相比，在软件工程任务上仍落后。

再看大模型幻觉排行、检测工具及多模态RAG技术范式总结

2025年4月21日14时作者老刘说NLP

实现范式，也有多模态RAG中的embedding和rank模型进展
，可以看看。
另外，
关于幻觉问

OpenAI的AI复现论文新基准，Claude拿了第一名

2025年4月3日16时作者机器之心

正从科研辅助工具蜕变为创新引擎：从 DeepMind 破解蛋白质折叠难题的 AlphaFold，到

AI复现顶尖AI论文？OpenAI最新测评：Claude 3.5得分第一

2025年4月3日16时作者 AI寒武纪

PaperBench测试了多款AI模型复现ICML 2024顶会论文的能力。结果显示，Claude 3.5 Sonnet表现最好，平均得分为21.0%。研究发现当前AI在长期规划、持续调试和策略执行方面存在问题。PaperBench为评估AI科研能力提供了量化标准，有助于加速科学发现并推动开放协作。