混元T1免费开放,实测媲美DeepSeek R1,完爆o3-mini

作者子川

来源AI先锋官

腾讯的深度推理模型“混元T1”它来了。
就在昨天,还在小范围灰度测试的混元T1突然宣布面向所有用户开放,免费不限量!
混元 T1使用方法简单,大家只需在腾讯元宝选择栏界面就可以直接使用。
混元T1是一款专为深度推理模型,其优点就是可以多维度理解问题本质和逻辑关系,从而进行高效推理,大家可以理解为是腾讯自家的Deepseek R1。
除了深度推理外,混元T1还有另外一张王牌,深度整合腾讯生态系统信息,会引用微信公众号、视频号、腾讯网的内容。
比如让它预测哪吒2的最终票房,一共引用了9篇文章,其中7篇来自微信公众号,1篇来自腾讯网,还有1篇是来自新浪网。
同时还会展示Deepseek R1的同款的推理过程。
老规矩,接下来,我们就来实测一下,混元 T1 深度推理模型到底好不好用!

首先来测试一下它的推理能力,让它和DeepSeek R1和o3-mini打一场PK。

注:因为是测试推理能力,不会使用R1和T1的联网功能,要不然跟开了挂一样。


日期推理:

先来一道经典的日期推理难题,在之前的测试中,o3-mini是回答错误了,看看T1能否回答正确。
如果昨天是明天的话就好了,那么今天就是周五了。请问:实际上,句中的今天可能是周几?

混元 T1:

o3-mini:

DeepSeek R1:

遗憾,只有o3-mini回答错误,DeepSeek R1和混元T1对回答正确,只有o3-mini受伤的世界达成了。压力给到o3-mini。

如何拿乒乓球问题
题目:排列着100个乒乓球,由两个人轮流拿球,每次至少拿1个,最多拿5个,拿到第100个乒乓球的人获胜。如果你是先拿的人,第一次该拿几个?
先公布正确答案,答案是4。
混元 T1:
o3-mini:
DeepSeek R1:
o好家伙,全部回答正确,该上上难度了。
猜扑克
题目:桌子上有16张扑克牌,约翰教授挑出一张牌,把点数告诉P先生,把花色告诉Q先生。P先生说:“我不知道这张牌。”Q先生说:“我知道你不知道这张牌。”P先生说:“现在我知道这张牌了。”Q先生说:“我也知道了。”请问这张牌是什么?
混元 T1:

o3-mini:

DeepSeek R1:

这结果是小编我没有想到的,又是o3-mini回答错误,连续试了两次,都是错的,反观DeepSeek R1和混元T1又答对了。

佩奇买水杯

题目:佩琪在星期六花1.30美元买了一些盆子,那天商店在搞促销,每样商品都便宜2美分。她在星期一按正常价退了货,换购杯子与碟子。因为一只盆子的价钱同一只杯子和一只碟子的价钱之和是相等的,所以她回家时,买进来的物品比原先的多了16件。又因为每只碟子只值3美分,所以她买进的碟子要比杯子多10只。
现在要问你了,佩琪在星期六,用1.30美元能买进多少只杯子?

混元 T1:

o3-mini:
DeepSeek R1:
又是只有o3-mini回答错误,怎么突然觉得o3-mini有点菜了……
虽然此次实测没有基准测试那么全,但也能看到不同模型的优缺点,同时整体测试下来,会发现混元T1的推理能力甚至比o3-mini还强,同时它的推理速度整体要比DeepSeek快上不少。
再来实测一下混元T1的联网功能怎么样,让它告诉我昨天微博热搜榜前十有哪些?

效果似乎可以,但并不是去引用微博第三方网站的数据,而是引用公众号中的文章的内容,让它告诉我今天的热搜前十是什么,就不正确了。,
相反,kimi就回答得出来,而且还是引用微博热搜的数据。
我们再来看看混元T1的写作能力,前段时间DeepSeek的推理模式+联网功能简直是写作神器,看看混元T1的推理模式+联网功能能不能复刻DeepSeek的文学功底。
笑死我了,这嘲讽意味直接拉满,该说不说,推理模型+联网功能用来写作就是香。
目前,混元T1已全面开放,感兴趣的用户可在腾讯元宝APP或网页端直接使用。
 

(文:AI先锋官)

欢迎分享

发表评论