打破大模型编程「数据污染」与「能力虚胖」困境,Meituan-M17团队构建新一代AI编程评测新标准——OIBench
ind 的 AlphaCode 曾宣称达到人类竞技编程选手的水平;OpenAI 的顶尖模型屡屡被报道
ind 的 AlphaCode 曾宣称达到人类竞技编程选手的水平;OpenAI 的顶尖模型屡屡被报道
OpenAI 的 ChatGPT 于 11 月 30 日发布,最初命名‘Chat with GPT-3.5’。产品负责人在最后一刻决定简化为‘ChatGPT’。ChatGPT 凭借简洁的界面和易于上手的特点迅速走红,成为OpenAI历史上最成功的产品之一。
马斯克宣布xAI将跳过Grok 3.5,直接发布Grok 4。新模型包含两个版本:Grok 4和Grok 4 Code,具有强大的文本处理能力和编程相关任务支持。但Grok 4存在多模态限制及上下文长度不足的问题。
标:年经常性收入 1 亿美元。
更可怕的数字是,据美国一家纸媒报道,Cursor 每日编写 10 亿
OpenAI 宣布在 ChatGPT 中引入 Codex,一个云端软件工程智能体,能并行处理多项编程任务。Codex 是 codex-1 模型的云原生版本,使用强化学习训练,并具备独立隔离的环境,支持用户直接访问和修改代码库。
GPT-4.1 正式上线 ChatGPT,专为编程和指令执行优化。模型拥有百万上下文长度,并在 SWE-bench 编程基准测试中超越了其他模型,提供更快的响应速度和更高的指令跟随准确性。
上线仅三天的Optimus Alpha模型已处理772亿Token,性能优异。它在编程、创意写作等方面表现突出,并被怀疑来自OpenAI。
Anthropic即将推出一款混合AI模型,结合了传统大语言模型与深度推理能力。该模型通过’滑动比例’功能动态调整计算资源分配,类似混合动力车的燃油和电机优势。