刚刚,Grok4跑分曝光:「人类最后考试」拿下45%,是Gemini 2.5两倍,但网友不信
刚泄露的Grok 4和Grok 4 Code基准测试结果显示其在Humanities Last Exam(HLE)上达到惊人的45%,远超OpenAI o3及Claude Opus 4。此外,在研究生级物理和天文学问题上得分高达87-88%。
刚泄露的Grok 4和Grok 4 Code基准测试结果显示其在Humanities Last Exam(HLE)上达到惊人的45%,远超OpenAI o3及Claude Opus 4。此外,在研究生级物理和天文学问题上得分高达87-88%。
月之暗面发布的Kimi-Dev-72B模型在SWE-bench Verified上取得60.4%成绩,超越多个竞争对手。但标注基于Qwen/Qwen2.5-72B引发争议。林俊旸解释这是历史遗留问题,并表示所有Qwen3系列都将采用Apache 2.0协议,推动生态发展。
Kimi-Dev-72B是首个在SWE-bench Verified编程基准测试中取得全球最高开源模型成绩的代码大模型,参数量仅为72B。通过大规模强化学习优化,Kimi-Dev-72B不仅能在错误修复和单元测试方面表现出色,还支持自我博弈机制以同时担任BugFixer和TestWriter的角色。
Claude Opus 4 是全球最佳编码模型,在复杂任务和代理工作流中表现出色。Anthropic 发布了 Claude Sonnet 4,并且免费开放给所有用户。新模型具有强大的代码生成能力和交互式网页生成功能,支持多语言、动态数据展示以及多种图表和筛选条件的实时更新。
今天凌晨,Anthropic 发布了 Claude 4 系列模型,包括旗舰版 Claude Opus 4 和主力版 Claude Sonnet 4。两款模型支持扩展推理、工具调用等Agent工作流所需核心能力,并在编程相关测试中表现出色。Claude Code 开放,方便开发者嵌入日常开发流程。Manus 国产 Agent 工具首次被 Anthropic 正式引用。
今天凌晨1点,著名大模型平台Anthropic发布了最新大模型Claude 4。Claude 4包括Opus 4和Sonnet 4两个版本,其中Opus 4在编程领域表现出色,独立稳定连续工作7小时超过OpenAI记录;Sonnet 4则在SWE-bench上达到72.7%表现优于Codex-1等前沿模型。Claude 4具备两种思考模式:标准和扩展,用户可以灵活切换以满足不同场景需求,并新增了思考摘要功能来帮助节省空间。Anthropic还宣布了一系列新功能和集成,助力开发者构建更强大的AI智能体。
Anthropic 推出的新一代 Claude 模型包括 Claude Opus 4 和 Claude Sonnet 4,在编码、推理和 AI Agent 方面达到新标准,并提供混合模型的两种模式:近乎即时响应和用于深度推理的扩展思维功能。
Anthropic发布Claude 4家族,包含Claude Opus 4和Claude Sonnet 4两个版本。Opus 4在编程基准测试SWE-bench上得分72.5%,Sonnet 4则在SWE-bench上得72.7%。两款模型均采用混合架构,并提供两种工作模式:近即时响应和深度思考推理。Claude Opus 4还具备调用工具的能力,带来一系列新功能和突破性的能力。
OpenAI发布新功能Codex,一个远程AI编程助手。Codex分为本地和云端两种形态,能够帮助开发者编写代码、修复Bug、优化性能等任务。Codex-1模型在SWE-Bench测试中表现优异,用户可通过ChatGPT侧边栏访问Codex,并在未来推出按需付费模式。
GPT-4.1 正式上线 ChatGPT,专为编程和指令执行优化。模型拥有百万上下文长度,并在 SWE-bench 编程基准测试中超越了其他模型,提供更快的响应速度和更高的指令跟随准确性。