🍹 Insight Daily 🪺

Aitrainee | 公众号：AI进修生

Hi，这里是Aitrainee，欢迎阅读本期新文章。

Sam透露，会有一个有关o3-mini的好东西留在后面。

网友猜测，会是基于o3-mini的强大编码能力的代理？

还有完整版o3也快到来了，此外Grok 3和Gemini 2.0 Pro等模型也在发布时间上线了：

R1之后，o3-mini来了，尤其是o3-mini-high，编码能力很突出，而且快。

有网友评论，无法想象，以前我们竟然一个键一个键手敲代码。。。

笑爆了，哈哈哈。。。

以前没有模型的日子，开发者们不知道咋过的：

jsni o随着R1的影响，SAM也在考虑Openai未来会开源一些权重。

o3-mini (high) 编码实践

有趣的物理动画对比：o3-mini、deepseek-r1和claude-3.5的较量。

任务：要实现带物理引擎的字母掉落动画，包括重力、碰撞、密度等多个参数。三个模型各有特色：只有 Claude 的版本有旋转的自由落体字母，而其他人的版本只有直立落体。

另一个有趣的挑战：重现win95的3D迷宫屏保。比之前的字母掉落更难，因为要同时处理3D渲染、迷宫生成和自动寻路。

要求很细致：红砖走廊、棕色地板、白色天花板，还要60fps的流畅度。全部代码要打包在一个HTML文件里，只用Three.js。

从图片看，原版win95的效果最好。claude-3.5-sonnet做出了基本形状，但还差些火候。deepseek-r1和o3-mini-high似乎还在努力中。

这是对AI综合能力的全面考验。

使用 o3 制作了一款 3D 贪吃蛇游戏

o3-mini 与 R1 组队对抗 Grok 和 Gemini，游戏中不同模型配对成队相互玩游戏。其中不同的模型被配对成组：

博主cj_zZZz：o3-mini 一次性完成了 Cursor 的 40 步编码计划。这太了不起了！编码模型很难在 Cursor/Windsurf 中规划编码工作流程。现在这个问题已经解决了。

o3-mini-high 在 p5.js 物理球体场景挑战中击败了 deepseek r1 ，o3-mini 的结果非常好：

deepseek r1（结果糟糕一些）

o3-mini 第一个正确做食物命运之轮的人。o1、DeepSeek R1 和 Claude 失败：

还有一个有趣的困难任务：在三维图上画立方体。

DeepSeek R1很努力，画出了一堆混乱的图形。但o3-mini-high的反应更智慧：它没有硬来，而是解释了为什么这是不可能的，还配上了精美的说明图。

网友adi让o1和o3-mini分别建造一个巨大的、令人惊叹的、史诗般的漂浮城市。

AWS 和 Google 前任总经理bindureddy 表示：o3-mini-high 正在开发复杂的应用程序和视频游戏，数百万非技术人员将能够创建应用程序、代理和其他简单的软件：

o3-mini 性能

性能：编码能力完胜o1、Sonnet等模型，全面超越R1。速度比R1快5倍。价格比Sonnet低2倍，比o1低15倍。

全局评分73.94，推理能力89.58，编码表现82.74（最突出）。

在数学代码等基准测试中，均拿下了最高的成绩。

OpenAI研究员Clive Chan表示：每天都在 cursor 中使用 o3-mini，它绝对是最好的编码模型。

人工分析质量指标方面，拿下89分，与DeepSeek R1并驾齐驱，仅比o1低1分。这个分数包含了MMLU、GPQA Diamond等多个权威测试。

速度表现不俗：每秒170个token，与o1-mini相当。虽然处理2000个token还需要12秒的”思考时间”。

价格定位在中间：每百万token的输入/输出费用是1.1/4.4美元。比DeepSeek R1贵些，但比大多数服务便宜。

AI初创企业CEO，Bindu Reddy 认为综合考虑性能、速度和价格，o3-mini high是目前最好的大语言模型(LLM)：

AI的竞赛，像是一场永不落幕的圣诞节。

o3-mini 之后，Openai 大的要来了？那是什么呢？

网友猜测：OpenAI的新编码代理要来了。

不是普通的编程助手，是专门面向高级工程师的AGI工具。基于o3-mini的强大编码能力，这个代理可能会改变专业开发的方式。

完整版o3 ？！

o3-pro 将物有所值，非常值得期待：

其他模型接踵而至？

OpenAI刚放出o3，xAI和Google就要跟进。Grok 3和Gemini 2.0 Pro马上就要来了：

但有意思的是，如果Grok 3表现不及o3，Grok 3.0 即将发布！或将成为世界上最强大的 AI。预训练现已完成，计算能力比 Grok 2 强 10 倍。也许单纯堆积算力性价比就低了。甚至再影响NVIDIA的股价。

就随着R1的影响，SAM也在考虑Openai未来会开源一些权重（并思考怎样的开源策略），当然这不是他们的优先事项：

未来更新高级语音模式为GPT-5而非GPT-5o：

Cursor、Claude

对了，大家似乎忘记了一个人了，嘿，人类，你该醒醒了：

不过，o3-mini集成到cursor之后， cursor的用户们仍然更喜欢 Sonnet 来完成大多数任务，这让官方他们感到惊讶。

Cursor 奥义：

1. 写好标准化工作流文档

2. 量身定制 cursorrule

3. 和 o1 聊好你的需求文档

4. 分拆实现、原子化设计

5. 趁 TA 没添乱之前 review + 测试 + commit

在 Cursor 中使用 o1 的最佳方式：让它分析并向你解释代码库 o1 在这方面非常擅长。你可以快速理解任何新的代码库：

向o3/1、r1等推理模型提问的技巧

不同于传统模型的”想到什么说什么”，推理模型（以o1为例）更像一个严谨的学者。它会沿着单一思维链不断深入，在发现问题时及时止步，重新审视。这种能力并非刻意设计的结果，而是在海量训练中自然涌现的。

“不是所有的思考时间都能带来突破。” 确实，对于”巴黎是法国的首都”这样的简单问题，再多的思考也无法带来新的洞见。但面对复杂的数学证明，每一次回溯都可能发现新的证明路径。

o1就是这样。它通过所谓的”草莓训练”系统，在数以百万计的问题中学会了判断——什么时候需要快速决策，什么时候值得投入更多算力去深入思考。

o1，不是聊天助手，是思考者。

它需要完整的上下文，就像写报告前的资料准备。不要期待快问快答，给它充分的信息和时间。

告诉它你要什么，而不是怎么做。让它自己规划路径，找到最佳方案。

它最擅长一次性生成完整的内容，给出深度解释。生成大型、正确的文件、提供详尽的解释和提供高级推理。

但要创意写作，或者定制风格，还需要等等。

和推理模型对话的11个技巧：

简洁直接：避免冗余细节，保持提示语简明扼要。  内置验证：让模型给出方案后，主动要求它检查和验证。  少用示例：推理模型更适合零样本或最少示例的场景。  避免详细步骤：过于具体的步骤指导反而会让o1困惑。  鼓励深度思考：用"请详细分析"或"请花时间思考"这样的短语。  结构化提示：用列表或编号提供指令，获得系统性答案。  设定具体约束：明确预算、时间、规则等标准，让o1能评估和优化输出。  多角度思考：要求提供多种解决方案，并进行比较。  自我检查：让模型检查自己的答案，指出潜在问题。  明确输出：想要简短要点还是完整代码，要明确说明。  提供事实：需要准确信息时，在提示中加入相关数据和背景。

来源@https://o1-prompt-guide.replit.app/

此外，另外一个提示是技巧如下：

当你使用Claude3.5的时候配合思维链提示词使用：

@illyism — 你不需要像R1或o3那样的推理模型，只需使用。cursorrules和Claude Sonnet添加一个思考步骤，效果会好100倍。

还有一个是这样的，我目前在用：

以前看到的一个帖子：我们正处于人类历史上最有趣的时代，但大多数人甚至不明白这一点。

未来教育：

末，此图结尾：

🌟 知音难求，自我修炼亦艰，抓住前沿技术的机遇，与我们一起成为创新的超级个体（把握AIGC时代的个人力量）。

（文：AI进修生）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31