SWE-bench 归档 - 每时AI

刚刚，Grok4跑分曝光：「人类最后考试」拿下45%，是Gemini 2.5两倍，但网友不信

2025年7月5日11时作者机器之心

刚泄露的Grok 4和Grok 4 Code基准测试结果显示其在Humanities Last Exam(HLE)上达到惊人的45%，远超OpenAI o3及Claude Opus 4。此外，在研究生级物理和天文学问题上得分高达87-88%。

Kimi超过DeepSeek的新模型被指“套壳”Qwen？到底怎么回事儿

2025年6月18日11时作者硅星人Pro

月之暗面发布的Kimi-Dev-72B模型在SWE-bench Verified上取得60.4%成绩，超越多个竞争对手。但标注基于Qwen/Qwen2.5-72B引发争议。林俊旸解释这是历史遗留问题，并表示所有Qwen3系列都将采用Apache 2.0协议，推动生态发展。

月之暗面又开源了！登顶全球第一，还超了新版DeepSeek-R1

2025年6月17日16时作者智东西

Kimi-Dev-72B是首个在SWE-bench Verified编程基准测试中取得全球最高开源模型成绩的代码大模型，参数量仅为72B。通过大规模强化学习优化，Kimi-Dev-72B不仅能在错误修复和单元测试方面表现出色，还支持自我博弈机制以同时担任BugFixer和TestWriter的角色。

Agent大革命！Claude 4连续自动编程7小时，刷新世界记录

2025年5月23日11时作者 AIGC开放社区

今天凌晨1点，著名大模型平台Anthropic发布了最新大模型Claude 4。Claude 4包括Opus 4和Sonnet 4两个版本，其中Opus 4在编程领域表现出色，独立稳定连续工作7小时超过OpenAI记录；Sonnet 4则在SWE-bench上达到72.7%表现优于Codex-1等前沿模型。Claude 4具备两种思考模式：标准和扩展，用户可以灵活切换以满足不同场景需求，并新增了思考摘要功能来帮助节省空间。Anthropic还宣布了一系列新功能和集成，助力开发者构建更强大的AI智能体。

OpenAI 再放大招！Codex：云端 AI 编程助手，修 Bug、改代码、自动调试！

2025年5月17日14时作者 AI信息Gap

OpenAI发布新功能Codex，一个远程AI编程助手。Codex分为本地和云端两种形态，能够帮助开发者编写代码、修复Bug、优化性能等任务。Codex-1模型在SWE-Bench测试中表现优异，用户可通过ChatGPT侧边栏访问Codex，并在未来推出按需付费模式。

刚刚，OpenAI 官宣：GPT-4.1 免费开放！ChatGPT 用户全体升级！

2025年5月15日14时作者 AI信息Gap

GPT-4.1 正式上线 ChatGPT，专为编程和指令执行优化。模型拥有百万上下文长度，并在 SWE-bench 编程基准测试中超越了其他模型，提供更快的响应速度和更高的指令跟随准确性。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31