公众号聊天机器人再升级！集成o1-mini推理模型！

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“外挂”，所以创建了“AI信息Gap”这个公众号，专注于分享AI全维度知识，包括但不限于AI科普，AI工具测评，AI效率提升，AI行业洞察。关注我，AI之路不迷路，2024我们一起变强。

今天是2024年12月23日，距离架设微信公众号机器人已将近1年。

2024年1月31日，抱着尝试的心态给“AI信息Gap”这个刚出生不久的公众号接入了AI大模型，让它在这个文字和数字的世界有了“生命”。

第一版本接入的是谷歌Gemini Pro模型，是的，当时的Gemini模型也才发布不久，还叫这个名字，其实本质上应该是Gemini 1.0 Pro。

那会的Gemini由于中文训练数据的影响，还会犯迷糊，说自己是百度开发的。放一张经典考古图。

接下来的故事就是半年后了。7月28日，随着GPT-4o mini模型的强势发布，我也萌生了给公众号聊天机器人换引擎的想法，毕竟当时的GPT-4o mini兼具了成本和回答质量。

再接下来，直到昨天，公众号聊天机器人的核心依旧是GPT-4o mini模型。期间出过一些问题，比如API Key超限额，比如并发用户过多把服务器搞瘫痪了，但好在都一一解决了。

整个服务自然也都是免费提供的，所有的服务器资源和API Key都是自费从官方渠道购入。最初的想法就是带小伙伴们方便的体验不同的AI模型，这个初心至今也没有变过。

而今天，“AI信息Gap”的这个数字生命再次迎来了升级，所集成的模型已于北京时间12月24日0点左右替换为了OpenAI的推理小模型o1-mini 。更新的这个时间点可能有小伙伴正在聊天，但本次更新必须要切断服务然后重启，导致了10分钟左右的服务中断，各位小伙伴请悉知。

o1-mini的能力自然是要比原来的GPT-4o mini上了一个等级，最重要的特点是会“思考”。对于你提出的问题，作为一个推理模型，o1-mini会先自行思考，然后再回答，能有效提高输出结果的质量。o1-mini的推理表现可以看下面这张图：在中等推理成本下达到了较高的数学性能（约60%-70%的AIME得分）。

“AI信息Gap”实测

接下来实测一下“AI信息Gap”（以下简称Gap）的表现。

先来一个经典起手问题，比较带小数点的数字大小。

9.9和9.11哪个大？为什么？

完美通过，可以看出来，推理思路很清晰，完全正确。

接下来是经典的“草莓问题”。

Strawberry一词中有多少个字母“r”？

so easy，完美通过，并且准确指出了字母r出现的位置。

继续来一道复杂数学计算问题。

计算388乘以8899的结果。

Gap的回答出人意料的正确。这种数学计算对于通用模型来说还是有难度的，Gap的解答过程中其实是用了推理技巧，把8899拆分开来计算。

接下来测试一道之前测试其他模型用到的经典逻辑推理问题。

三个囚犯 A、B 和 C，分别戴着红帽或蓝帽（但无法看到自己的帽子）。守卫说：“至少有一个囚犯戴着红帽。” A 说：“我不知道我的帽子颜色。” B 说：“我也不知道。” C 说：“我知道了。” 问 C 的帽子是什么颜色？

Gap继续完美通过测试，整个推理过程也准确无误。

一些注意事项

由于o1-mini加入了思考过程，回复速度会受到影响，耐心等待即可。如果出现“【正在思考中，回复任意文字尝试获取回复】”，这是微信订阅号对于回复长度的限制，此时回复任意文字、数字、字符就行。
切记，千万不要输入任何个人信息、敏感信息、机密信息。对于AI大模型来说，信息泄露是分分钟的事。
o1-mini的智商足够完成95%的日常任务，比如讲解新知识，翻译，写日报周报和文章，写故事写诗写对联，甚至是闲聊，询问建议，制定规划等等。
凡是回复前面带有“[bot]”这个标识的，均为AI机器人的回复。
如何刷新上下文？用“#reset”命令就可清除当前会话的上下文，重置会话。
AI有幻觉，使用需谨慎。

结语

会推理的公众号，我这算不算首个？

感谢小伙伴们一年来对Gap的支持，觉得好用，欢迎一建n连，点赞、转发、分享。

（文：AI信息Gap）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

“AI信息Gap”实测

一些注意事项

结语

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复