大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普,AI工具测评,AI效率提升,AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。
今天是2024年12月23日,距离架设微信公众号机器人已将近1年。
2024年1月31日,抱着尝试的心态给“AI信息Gap”这个刚出生不久的公众号接入了AI大模型,让它在这个文字和数字的世界有了“生命”。
第一版本接入的是谷歌Gemini Pro模型,是的,当时的Gemini模型也才发布不久,还叫这个名字,其实本质上应该是Gemini 1.0 Pro
。
那会的Gemini由于中文训练数据的影响,还会犯迷糊,说自己是百度开发的。放一张经典考古图。
接下来的故事就是半年后了。7月28日,随着GPT-4o mini
模型的强势发布,我也萌生了给公众号聊天机器人换引擎的想法,毕竟当时的GPT-4o mini
兼具了成本和回答质量。
再接下来,直到昨天,公众号聊天机器人的核心依旧是GPT-4o mini
模型。期间出过一些问题,比如API Key超限额,比如并发用户过多把服务器搞瘫痪了,但好在都一一解决了。
整个服务自然也都是免费提供的,所有的服务器资源和API Key都是自费从官方渠道购入。最初的想法就是带小伙伴们方便的体验不同的AI模型,这个初心至今也没有变过。
而今天,“AI信息Gap”的这个数字生命再次迎来了升级,所集成的模型已于北京时间12月24日0点左右替换为了OpenAI的推理小模型o1-mini
。更新的这个时间点可能有小伙伴正在聊天,但本次更新必须要切断服务然后重启,导致了10分钟左右的服务中断,各位小伙伴请悉知。
o1-mini
的能力自然是要比原来的GPT-4o mini
上了一个等级,最重要的特点是会“思考”。对于你提出的问题,作为一个推理模型,o1-mini
会先自行思考,然后再回答,能有效提高输出结果的质量。o1-mini
的推理表现可以看下面这张图:在中等推理成本下达到了较高的数学性能(约60%-70%的AIME得分)。
“AI信息Gap”实测
接下来实测一下“AI信息Gap”(以下简称Gap)的表现。
先来一个经典起手问题,比较带小数点的数字大小。
9.9和9.11哪个大?为什么?
完美通过,可以看出来,推理思路很清晰,完全正确。
接下来是经典的“草莓问题”。
Strawberry一词中有多少个字母“r”?
so easy,完美通过,并且准确指出了字母r出现的位置。
继续来一道复杂数学计算问题。
计算388乘以8899的结果。
Gap的回答出人意料的正确。这种数学计算对于通用模型来说还是有难度的,Gap的解答过程中其实是用了推理技巧,把8899拆分开来计算。
接下来测试一道之前测试其他模型用到的经典逻辑推理问题。
三个囚犯 A、B 和 C,分别戴着红帽或蓝帽(但无法看到自己的帽子)。守卫说:“至少有一个囚犯戴着红帽。” A 说:“我不知道我的帽子颜色。” B 说:“我也不知道。” C 说:“我知道了。” 问 C 的帽子是什么颜色?
Gap继续完美通过测试,整个推理过程也准确无误。
一些注意事项
-
由于 o1-mini
加入了思考过程,回复速度会受到影响,耐心等待即可。如果出现“【正在思考中,回复任意文字尝试获取回复】”,这是微信订阅号对于回复长度的限制,此时回复任意文字、数字、字符就行。 -
切记,千万不要输入任何个人信息、敏感信息、机密信息。对于AI大模型来说,信息泄露是分分钟的事。 -
o1-mini
的智商足够完成95%的日常任务,比如讲解新知识,翻译,写日报周报和文章,写故事写诗写对联,甚至是闲聊,询问建议,制定规划等等。 -
凡是回复前面带有“[bot]”这个标识的,均为AI机器人的回复。 -
如何刷新上下文?用“#reset”命令就可清除当前会话的上下文,重置会话。 -
AI有幻觉,使用需谨慎。
结语
会推理的公众号,我这算不算首个?
感谢小伙伴们一年来对Gap的支持,觉得好用,欢迎一建n连,点赞、转发、分享。
(文:AI信息Gap)