🍹 Insight Daily 🪺
Aitrainee | 公众号:AI进修生
Hi,这里是Aitrainee,欢迎阅读本期新文章。
Sam透露,会有一个有关o3-mini的好东西留在后面。
网友猜测,会是基于o3-mini的强大编码能力的代理?
还有完整版o3也快到来了, 此外Grok 3和Gemini 2.0 Pro等模型也在发布时间上线了:
R1之后,o3-mini来了,尤其是o3-mini-high,编码能力很突出,而且快。
有网友评论,无法想象,以前我们竟然一个键一个键手敲代码。。。
笑爆了,哈哈哈。。。
以前没有模型的日子,开发者们不知道咋过的:
jsni o随着R1的影响,SAM也在考虑Openai未来会开源一些权重。
o3-mini (high) 编码实践
使用 o3 制作了一款 3D 贪吃蛇游戏
o3-mini 与 R1 组队对抗 Grok 和 Gemini,游戏中不同模型配对成队相互玩游戏。其中不同的模型被配对成组:
博主cj_zZZz:o3-mini 一次性完成了 Cursor 的 40 步编码计划。这太了不起了!编码模型很难在 Cursor/Windsurf 中规划编码工作流程。现在这个问题已经解决了。
o3-mini-high 在 p5.js 物理球体场景 挑战中击败了 deepseek r1 ,o3-mini 的结果非常好:
deepseek r1(结果糟糕一些)
o3-mini 第一个正确做食物命运之轮的人。o1、DeepSeek R1 和 Claude 失败:
网友adi让o1和o3-mini分别建造一个巨大的、令人惊叹的、史诗般的漂浮城市。
AWS 和 Google 前任总经理bindureddy 表示:o3-mini-high 正在开发复杂的应用程序和视频游戏,数百万非技术人员将能够创建应用程序、代理和其他简单的软件:
o3-mini 性能
在数学代码等基准测试中,均拿下了最高的成绩。
OpenAI研究员Clive Chan表示:每天都在 cursor 中使用 o3-mini,它绝对是最好的编码模型。
AI的竞赛,像是一场永不落幕的圣诞节。
o3-mini 之后,Openai 大的要来了?那是什么呢?
完整版o3 ?!
o3-pro 将物有所值,非常值得期待:
就随着R1的影响,SAM也在考虑Openai未来会开源一些权重(并思考怎样的开源策略),当然这不是他们的优先事项:
未来更新高级语音模式为GPT-5而非GPT-5o:
Cursor、Claude
对了,大家似乎忘记了一个人了,嘿,人类,你该醒醒了:
不过,o3-mini集成到cursor之后, cursor的用户们仍然更喜欢 Sonnet 来完成大多数任务,这让官方他们感到惊讶。
Cursor 奥义:
1. 写好标准化工作流文档
2. 量身定制 cursorrule
3. 和 o1 聊好你的需求文档
4. 分拆实现、原子化设计
5. 趁 TA 没添乱之前 review + 测试 + commit
在 Cursor 中使用 o1 的最佳方式:让它分析并向你解释代码库 o1 在这方面非常擅长。你可以快速理解任何新的代码库:
向o3/1、r1等推理模型提问的技巧
简洁直接:避免冗余细节,保持提示语简明扼要。
内置验证:让模型给出方案后,主动要求它检查和验证。
少用示例:推理模型更适合零样本或最少示例的场景。
避免详细步骤:过于具体的步骤指导反而会让o1困惑。
鼓励深度思考:用"请详细分析"或"请花时间思考"这样的短语。
结构化提示:用列表或编号提供指令,获得系统性答案。
设定具体约束:明确预算、时间、规则等标准,让o1能评估和优化输出。
多角度思考:要求提供多种解决方案,并进行比较。
自我检查:让模型检查自己的答案,指出潜在问题。
明确输出:想要简短要点还是完整代码,要明确说明。
提供事实:需要准确信息时,在提示中加入相关数据和背景。
当你使用Claude3.5的时候配合思维链提示词使用:
@illyism — 你不需要像R1或o3那样的推理模型,只需使用。cursorrules和Claude Sonnet添加一个思考步骤,效果会好100倍。
还有一个是这样的,我目前在用:
以前看到的一个帖子:我们正处于人类历史上最有趣的时代,但大多数人甚至不明白这一点。
未来教育:
末,此图结尾:
(文:AI进修生)