o3-mini 之后,大的要来了?!我不敢相信我们以前写代码真的会敲出每个字符!

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

Sam透露,会有一个有关o3-mini的好东西留在后面。

网友猜测,会是基于o3-mini的强大编码能力的代理? 

还有完整版o3也快到来了, 此外Grok 3和Gemini 2.0 Pro等模型也在发布时间上线了:

R1之后,o3-mini来了,尤其是o3-mini-high,编码能力很突出,而且快。

有网友评论,无法想象,以前我们竟然一个键一个键手敲代码。。。

笑爆了,哈哈哈。。。

以前没有模型的日子,开发者们不知道咋过的:

jsni o随着R1的影响,SAM也在考虑Openai未来会开源一些权重。

o3-mini (high) 编码实践

有趣的物理动画对比:o3-mini、deepseek-r1和claude-3.5的较量。
任务:要实现带物理引擎的字母掉落动画,包括重力、碰撞、密度等多个参数。三个模型各有特色:只有 Claude 的版本有旋转的自由落体字母,而其他人的版本只有直立落体。

另一个有趣的挑战:重现win95的3D迷宫屏保。比之前的字母掉落更难,因为要同时处理3D渲染、迷宫生成和自动寻路。
要求很细致:红砖走廊、棕色地板、白色天花板,还要60fps的流畅度。全部代码要打包在一个HTML文件里,只用Three.js。
从图片看,原版win95的效果最好。claude-3.5-sonnet做出了基本形状,但还差些火候。deepseek-r1和o3-mini-high似乎还在努力中。
这是对AI综合能力的全面考验。

使用 o3 制作了一款 3D 贪吃蛇游戏

o3-mini 与 R1 组队对抗 Grok 和 Gemini,游戏中不同模型配对成队相互玩游戏。其中不同的模型被配对成组:

博主cj_zZZz:o3-mini 一次性完成了 Cursor 的 40 步编码计划。这太了不起了!编码模型很难在 Cursor/Windsurf 中规划编码工作流程。现在这个问题已经解决了。

o3-mini-high 在 p5.js 物理球体场景 挑战中击败了 deepseek r1 ,o3-mini 的结果非常好:

deepseek r1(结果糟糕一些)

o3-mini 第一个正确做食物命运之轮的人。o1、DeepSeek R1 和 Claude 失败:

还有一个有趣的困难任务:在三维图上画立方体。
DeepSeek R1很努力,画出了一堆混乱的图形。但o3-mini-high的反应更智慧:它没有硬来,而是解释了为什么这是不可能的,还配上了精美的说明图。

网友adi让o1和o3-mini分别建造一个巨大的、令人惊叹的、史诗般的漂浮城市。

AWS 和 Google 前任总经理bindureddy 表示:o3-mini-high 正在开发复杂的应用程序和视频游戏,数百万非技术人员将能够创建应用程序、代理和其他简单的软件:


o3-mini 性能

性能:编码能力完胜o1、Sonnet等模型,全面超越R1。速度比R1快5倍。价格比Sonnet低2倍,比o1低15倍。
全局评分73.94,推理能力89.58,编码表现82.74(最突出)。

在数学代码等基准测试中,均拿下了最高的成绩。

OpenAI研究员Clive Chan表示:每天都在 cursor 中使用 o3-mini,它绝对是最好的编码模型。

人工分析质量指标方面,拿下89分,与DeepSeek R1并驾齐驱,仅比o1低1分。这个分数包含了MMLU、GPQA Diamond等多个权威测试。
速度表现不俗:每秒170个token,与o1-mini相当。虽然处理2000个token还需要12秒的”思考时间”。
价格定位在中间:每百万token的输入/输出费用是1.1/4.4美元。比DeepSeek R1贵些,但比大多数服务便宜。
AI初创企业CEO,Bindu Reddy 认为综合考虑性能、速度和价格,o3-mini high是目前最好的大语言模型(LLM):

AI的竞赛,像是一场永不落幕的圣诞节。

o3-mini 之后,Openai 大的要来了?那是什么呢?

网友猜测:OpenAI的新编码代理要来了。
不是普通的编程助手,是专门面向高级工程师的AGI工具。基于o3-mini的强大编码能力,这个代理可能会改变专业开发的方式。

 完整版o3 ?!

o3-pro 将物有所值,非常值得期待:

其他模型接踵而至?
OpenAI刚放出o3,xAI和Google就要跟进。Grok 3和Gemini 2.0 Pro马上就要来了:
但有意思的是,如果Grok 3表现不及o3,Grok 3.0 即将发布!或将成为世界上最强大的 AI。预训练现已完成,计算能力比 Grok 2 强 10 倍。也许单纯堆积算力性价比就低了。甚至再影响NVIDIA的股价。

就随着R1的影响,SAM也在考虑Openai未来会开源一些权重(并思考怎样的开源策略),当然这不是他们的优先事项:

未来更新高级语音模式为GPT-5而非GPT-5o:

Cursor、Claude

对了,大家似乎忘记了一个人了,嘿,人类,你该醒醒了:

不过,o3-mini集成到cursor之后, cursor的用户们仍然更喜欢 Sonnet 来完成大多数任务,这让官方他们感到惊讶。

Cursor 奥义:

1. 写好标准化工作流文档

2. 量身定制 cursorrule

3. 和 o1 聊好你的需求文档

4. 分拆实现、原子化设计

5. 趁 TA 没添乱之前 review + 测试 + commit

在 Cursor 中使用 o1 的最佳方式:让它分析并向你解释代码库 o1 在这方面非常擅长。你可以快速理解任何新的代码库:

向o3/1、r1等推理模型提问的技巧

不同于传统模型的”想到什么说什么”,推理模型(以o1为例)更像一个严谨的学者。它会沿着单一思维链不断深入,在发现问题时及时止步,重新审视。这种能力并非刻意设计的结果,而是在海量训练中自然涌现的。
“不是所有的思考时间都能带来突破。” 确实,对于”巴黎是法国的首都”这样的简单问题,再多的思考也无法带来新的洞见。但面对复杂的数学证明,每一次回溯都可能发现新的证明路径。
o1就是这样。它通过所谓的”草莓训练”系统,在数以百万计的问题中学会了判断——什么时候需要快速决策,什么时候值得投入更多算力去深入思考。
o1,不是聊天助手,是思考者。
它需要完整的上下文,就像写报告前的资料准备。不要期待快问快答,给它充分的信息和时间。
告诉它你要什么,而不是怎么做。让它自己规划路径,找到最佳方案。
它最擅长一次性生成完整的内容,给出深度解释。生成大型、正确的文件、提供详尽的解释和提供高级推理。
但要创意写作,或者定制风格,还需要等等。
推理模型对话的11个技巧:
简洁直接:避免冗余细节,保持提示语简明扼要。  内置验证:让模型给出方案后,主动要求它检查和验证。  少用示例:推理模型更适合零样本或最少示例的场景。  避免详细步骤:过于具体的步骤指导反而会让o1困惑。  鼓励深度思考:用"请详细分析""请花时间思考"这样的短语。  结构化提示:用列表或编号提供指令,获得系统性答案。  设定具体约束:明确预算、时间、规则等标准,让o1能评估和优化输出。  多角度思考:要求提供多种解决方案,并进行比较。  自我检查:让模型检查自己的答案,指出潜在问题。  明确输出:想要简短要点还是完整代码,要明确说明。  提供事实:需要准确信息时,在提示中加入相关数据和背景。
来源@https://o1-prompt-guide.replit.app/
此外,另外一个提示是技巧如下:

当你使用Claude3.5的时候配合思维链提示词使用:

@illyism — 你不需要像R1或o3那样的推理模型,只需使用。cursorrules和Claude Sonnet添加一个思考步骤,效果会好100倍。

还有一个是这样的,我目前在用:

以前看到的一个帖子:我们正处于人类历史上最有趣的时代,但大多数人甚至不明白这一点。

未来教育:

末,此图结尾:

🌟 知音难求,自我修炼亦艰,抓住前沿技术的机遇,与我们一起成为创新的超级个体(把握AIGC时代的个人力量)。

(文:AI进修生)

欢迎分享

发表评论