SWE-bench Verified 归档

Kimi-Dev：强大的开源编程LLM，助力软件开发任务

2025年6月18日8时作者 NLP工程化

Kimi-Dev 是一款强大的开源编程LLM，性能超越其他开源模型，在SWE-bench Verified上达到60.4%；支持本地部署和Hugging Face使用，并通过大规模强化学习优化解决方案的准确性和鲁棒性。

Kimi新模型拿下代码开源SOTA，仅仅72B，发布即开源

2025年6月17日11时作者量子位

Kimi发布开源代码模型Kimi-Dev，在SWE-bench Verified上取得60.4%成绩，参数量只有72B。该模型采用BugFixer和TestWriter两种角色的结合进行训练，目前权重和代码均已发布。

AI编码力压群雄！Anthropic上线最强模型Claude 4系列，“举报”模式引争议

2025年5月23日23时作者头部科技

美国AI公司Anthropic发布新一代编码模型Claude Opus 4和Sonnet 4，性能提升高达10%，在SWE-bench上达到业内最先进水平。模型支持多种模式并能通过扩展接口连接到数据库、API等工具，引发了开发者们的广泛好评。

24B模型编程超DeepSeek全家桶，32G内存苹果电脑就能跑，专门针对真实GitHub Issue训练

2025年5月22日16时作者量子位

Mistral发布开源编程模型Devstral，在软件工程任务上超过DeepSeek全家桶和Qwen3 235B。参数仅24B，可在单卡RTX4090甚至32G内存的Mac上运行。

刚刚，Anthropic完成35亿美元新融资，估值飙升至615亿美元，网友催发Claude 4

2025年3月4日12时作者机器之心

Anthropic 宣布完成35亿美元E轮融资，投后估值达615亿美元。该资金将用于开发下一代AI系统、增强计算能力及深化研究。

Anthropic 推全球首个混合推理模型Claude 3.7，编程能力大幅增强

2025年2月25日14时作者 AI先锋官

Anthropic发布了新款Claude 3.7和Claude Code，Claude 3.7是首个混合推理模型，可在不同模型间选择答案，并展示思考过程。它在多个基准测试中表现优异，在SWE-bench Verified 和 TAU-bench 中表现出色，在零售和航空场景下的表现也优于其他模型。Anthropic还推出了代理编码工具Claude Code，能帮助用户完成代码任务。

没有预热，只有实力：Claude 3.7 Sonnet不声不响，惊艳全场！

2025年2月25日14时作者 AI信息Gap

Anthropic发布新模型Claude 3.7 Sonnet，这是一个混合推理模型，提供即时回答和深入思考两种模式。Claude 3.7 Sonnet在编程测试中表现出色，并且推出了辅助编程工具Claude Code。

Claude 3.7 Sonnet发布：别提什么AGI，我Anthropic要赚企业客户的钱！

2025年2月25日12时作者硅星人Pro

Anthropic发布了其新模型Claude 3.7 Sonnet，这是一个混合推理模型，具备标准思考和扩展思考模式。它在多个测试中表现出色，并改进了代理训练能力。虽然Claude 3.7 Sonnet在一些指标上不如其他顶级推理模型，但Anthropic强调其在解决GitHub上的实际软件问题方面表现出色，并推出了智能编码工具Claude Code。

2025 年 7 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31