公众号聊天机器人再升级!集成o1-mini推理模型!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

今天是2024年12月23日,距离架设微信公众号机器人已将近1年。

2024年1月31日,抱着尝试的心态给“AI信息Gap”这个刚出生不久的公众号接入了AI大模型,让它在这个文字和数字的世界有了“生命”

第一版本接入的是谷歌Gemini Pro模型,是的,当时的Gemini模型也才发布不久,还叫这个名字,其实本质上应该是Gemini 1.0 Pro

那会的Gemini由于中文训练数据的影响,还会犯迷糊,说自己是百度开发的。放一张经典考古图。

接下来的故事就是半年后了。7月28日,随着GPT-4o mini模型的强势发布,我也萌生了给公众号聊天机器人换引擎的想法,毕竟当时的GPT-4o mini兼具了成本和回答质量。

再接下来,直到昨天,公众号聊天机器人的核心依旧是GPT-4o mini模型。期间出过一些问题,比如API Key超限额,比如并发用户过多把服务器搞瘫痪了,但好在都一一解决了。

整个服务自然也都是免费提供的,所有的服务器资源和API Key都是自费从官方渠道购入。最初的想法就是带小伙伴们方便的体验不同的AI模型,这个初心至今也没有变过。

而今天,“AI信息Gap”的这个数字生命再次迎来了升级,所集成的模型已于北京时间12月24日0点左右替换为了OpenAI的推理小模型o1-mini 。更新的这个时间点可能有小伙伴正在聊天,但本次更新必须要切断服务然后重启,导致了10分钟左右的服务中断,各位小伙伴请悉知。

o1-mini的能力自然是要比原来的GPT-4o mini上了一个等级,最重要的特点是会“思考”。对于你提出的问题,作为一个推理模型,o1-mini会先自行思考,然后再回答,能有效提高输出结果的质量。o1-mini的推理表现可以看下面这张图:在中等推理成本下达到了较高的数学性能(约60%-70%的AIME得分)。

“AI信息Gap”实测

接下来实测一下“AI信息Gap”(以下简称Gap)的表现。

先来一个经典起手问题,比较带小数点的数字大小。

9.9和9.11哪个大?为什么?

完美通过,可以看出来,推理思路很清晰,完全正确。

接下来是经典的“草莓问题”。

Strawberry一词中有多少个字母“r”?

so easy,完美通过,并且准确指出了字母r出现的位置。

继续来一道复杂数学计算问题。

计算388乘以8899的结果。

Gap的回答出人意料的正确。这种数学计算对于通用模型来说还是有难度的,Gap的解答过程中其实是用了推理技巧,把8899拆分开来计算。

接下来测试一道之前测试其他模型用到的经典逻辑推理问题。

三个囚犯 A、B 和 C,分别戴着红帽或蓝帽(但无法看到自己的帽子)。守卫说:“至少有一个囚犯戴着红帽。” A 说:“我不知道我的帽子颜色。” B 说:“我也不知道。” C 说:“我知道了。” 问 C 的帽子是什么颜色?

Gap继续完美通过测试,整个推理过程也准确无误。

一些注意事项

  1. 由于o1-mini加入了思考过程,回复速度会受到影响,耐心等待即可。如果出现“【正在思考中,回复任意文字尝试获取回复】”,这是微信订阅号对于回复长度的限制,此时回复任意文字、数字、字符就行。
  2. 切记,千万不要输入任何个人信息、敏感信息、机密信息。对于AI大模型来说,信息泄露是分分钟的事。
  3. o1-mini的智商足够完成95%的日常任务,比如讲解新知识,翻译,写日报周报和文章,写故事写诗写对联,甚至是闲聊,询问建议,制定规划等等。
  4. 凡是回复前面带有“[bot]”这个标识的,均为AI机器人的回复。
  5. 如何刷新上下文?用“#reset”命令就可清除当前会话的上下文,重置会话。
  6. AI有幻觉,使用需谨慎。

结语

会推理的公众号,我这算不算首个?

感谢小伙伴们一年来对Gap的支持,觉得好用,欢迎一建n连,点赞、转发、分享。



(文:AI信息Gap)

欢迎分享

发表评论