混元T1免费开放，实测媲美DeepSeek R1，完爆o3-mini

作者｜子川

来源｜AI先锋官

腾讯的深度推理模型“混元T1”它来了。

就在昨天，还在小范围灰度测试的混元T1突然宣布面向所有用户开放，免费不限量！

混元 T1使用方法简单，大家只需在腾讯元宝选择栏界面就可以直接使用。

混元T1是一款专为深度推理模型，其优点就是可以多维度理解问题本质和逻辑关系，从而进行高效推理，大家可以理解为是腾讯自家的Deepseek R1。

除了深度推理外，混元T1还有另外一张王牌，深度整合腾讯生态系统信息，会引用微信公众号、视频号、腾讯网的内容。

比如让它预测哪吒2的最终票房，一共引用了9篇文章，其中7篇来自微信公众号，1篇来自腾讯网，还有1篇是来自新浪网。

同时还会展示Deepseek R1的同款的推理过程。

老规矩，接下来，我们就来实测一下，混元 T1 深度推理模型到底好不好用！

首先来测试一下它的推理能力，让它和DeepSeek R1和o3-mini打一场PK。

注：因为是测试推理能力，不会使用R1和T1的联网功能，要不然跟开了挂一样。

日期推理：

先来一道经典的日期推理难题，在之前的测试中，o3-mini是回答错误了，看看T1能否回答正确。

如果昨天是明天的话就好了，那么今天就是周五了。请问：实际上，句中的今天可能是周几？

混元 T1：

o3-mini:

DeepSeek R1：

遗憾，只有o3-mini回答错误，DeepSeek R1和混元T1对回答正确，只有o3-mini受伤的世界达成了。压力给到o3-mini。

如何拿乒乓球问题

题目：排列着100个乒乓球，由两个人轮流拿球，每次至少拿1个，最多拿5个，拿到第100个乒乓球的人获胜。如果你是先拿的人，第一次该拿几个？

先公布正确答案，答案是4。

混元 T1：

o3-mini:

DeepSeek R1：

o好家伙，全部回答正确，该上上难度了。

猜扑克

题目：桌子上有16张扑克牌，约翰教授挑出一张牌，把点数告诉P先生，把花色告诉Q先生。P先生说：“我不知道这张牌。”Q先生说：“我知道你不知道这张牌。”P先生说：“现在我知道这张牌了。”Q先生说：“我也知道了。”请问这张牌是什么？

混元 T1：

o3-mini:

DeepSeek R1：

这结果是小编我没有想到的，又是o3-mini回答错误，连续试了两次，都是错的，反观DeepSeek R1和混元T1又答对了。

佩奇买水杯

题目：佩琪在星期六花1.30美元买了一些盆子，那天商店在搞促销，每样商品都便宜2美分。她在星期一按正常价退了货，换购杯子与碟子。因为一只盆子的价钱同一只杯子和一只碟子的价钱之和是相等的，所以她回家时，买进来的物品比原先的多了16件。又因为每只碟子只值3美分，所以她买进的碟子要比杯子多10只。
现在要问你了，佩琪在星期六，用1.30美元能买进多少只杯子？

混元 T1：

o3-mini:

DeepSeek R1：

又是只有o3-mini回答错误，怎么突然觉得o3-mini有点菜了……

虽然此次实测没有基准测试那么全，但也能看到不同模型的优缺点，同时整体测试下来，会发现混元T1的推理能力甚至比o3-mini还强，同时它的推理速度整体要比DeepSeek快上不少。

再来实测一下混元T1的联网功能怎么样，让它告诉我昨天微博热搜榜前十有哪些？

效果似乎可以，但并不是去引用微博第三方网站的数据，而是引用公众号中的文章的内容，让它告诉我今天的热搜前十是什么，就不正确了。，

相反，kimi就回答得出来，而且还是引用微博热搜的数据。

我们再来看看混元T1的写作能力，前段时间DeepSeek的推理模式＋联网功能简直是写作神器，看看混元T1的推理模式+联网功能能不能复刻DeepSeek的文学功底。

笑死我了，这嘲讽意味直接拉满，该说不说，推理模型＋联网功能用来写作就是香。

目前，混元T1已全面开放，感兴趣的用户可在腾讯元宝APP或网页端直接使用。

（文：AI先锋官）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复