实测腾讯混元T1正式版.vs.DeepSeek.vs.Qwen2.5-Max,推理能力哪家强？

作者｜子川

来源｜AI先锋官

价格屠夫的称号建议直接焊在腾讯深度思考模型 T1上，太卷了！

昨晚，腾讯混元罕见的开直播发布它们最新的模型——深度思考模型混元T1正式版。

根据官方介绍，混元T1正式版在推理能力、长文本处理、成本效率三大维度实现突破性升级！

“吐字快、能秒回、逻辑强”。

小编实测，最直观体验首先也是，太快了！

与此前已上线腾讯元宝的混元T1-preview相比，综合效果明显提升。

从放出的跑分成绩来看，混元T1正式版在多项评估指标上超越OpenAI o1、GPT-4.5，以及Deepseek R1。

如在大语言模型（LLM）评估增强数据集MMLU-PRO中，混元T1取得87.2分，仅次于得分89.3的OpenAI o1，高于得分86.1的OpenAI GPT 4.5和得分84的DeepSeek R1。

另外T1沿用了混元Turbo S的创新架构，首次在工业界实现混合Mamba架构无损应用于超大型推理模型，这一设计打破传统Transformer的算力桎梏。

最直观的体现就是在价格上——

输入价格为1元/百万tokens，输出价格为4元/百万tokens。

对比同类模型，T1的API定价堪称“价格屠夫”。

号称AI界“拼多多”的DeepSeek R1在标准时段的定价为4元/百万tokens输入，16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入，8元/百万tokens输出。

换句话说，混元T1的价格仅为DeepSeek R1的1/4，是文心 X1的1/2。

而海对面ChatGPT的价格一直居高不下。

GPT4.5的价格达到了75美元/百万tokens输入、150美元/百万tokens输出。

那混元T1正式版这款模型效果到底如何呢，老规矩，实测一手！

此次测试的选手是大家熟知的DeepSeek R1、Qwen2.5-Max以及腾讯新出的混元T1正式版。

先来一道简单的推理题开开胃。

测试题一：谁说谎？

有三个人，Alex、Ben和Cody，其中一个是骑士（总是说真话），一个是小丑（总是说假话），一个是间谍（随机说真话或假话）。Alex说：“Cody是小丑。”Ben说：“Alex是骑士。”Cody说：“我是间谍。”谁是骑士，谁是小丑，谁是间谍？

混元T1正式版

DeepSeek R1

Qwen2.5-Max

不愧是国内最前沿的推理模型，全部回答正确，看来，只能上上难度了。

测试题二：金币游戏

你和朋友轮流从一堆金币中取1、3或6枚。获胜者是最后取走金币的人。对于N<1000，第一位玩家有多少种赢得游戏的策略？

混元T1正式版

DeepSeek R1

Qwen2.5-Max

看DeepSeek思考了262秒就知道这道题已经足够难了，然后它们三居然又全部回答正确了。

看来只能拿出杀手锏了，之前Deepseek R1都回答错误的一道题。

测试题三：一根8米长的竹竿是否能通过一个4米高、2米宽的门？

混元T1正式版

DeepSeek R1

Qwen2.5-Max

纳尼！！！全部回答错误，之前全对，这次居然全错，整整齐齐。

测试题四：Eael在哪个部门工作

Alex、Betty、Carol、Dan、Earl、Fay、George 和 Harry 是一家公司的八名员工

他们在三个部门工作：人事、行政和营销，任何部门不超过三个。

他们每个人都有不同的运动选择，包括足球、板球、排球、羽毛球、草地网球、篮球、曲棍球和乒乓球，不一定顺序相同。

Dan 在行政部门工作，不喜欢足球或板球。
Fay 在人事部门工作，只有 Alex 喜欢乒乓球。
Earl 和 Harry 与 Dan 不在同一个部门工作。
Carol 喜欢曲棍球，不从事市场营销工作。
George 不在行政部门工作，不喜欢板球或羽毛球。
在行政部门工作的人之一喜欢足球。
喜欢排球的人在人事部门工作。
在行政部门工作的人都不喜欢羽毛球或草地网球。
哈利不喜欢板球。

在行政部门工作的员工是谁？

Earl 在哪个部门工作？

混元T1正式版

DeepSeek R1

Qwen2.5-Max

先来看一下正确答案：

三款模型又全军覆没了，但DeepSeek R1和混元T1正式版成功推理出Betty、Carol 和 Dan 在行政部门工作，都没有回答出Earl在哪个部门工作。

Qwen2.5-Max则是两部分都没有回答正确。

后续又测试了10多道之前测试过的推理题，基本上它们三全都推理正确，直接把我的测试题库给干没了，随后我们换一个思路，测试数学题。

测试题五：高三摸底试卷题

先公布正确答案：ACD

混元T1正式版

DeepSeek R1

Qwen2.5-Max

好家伙，又是全部正确…..一时间居然分不出差距来。再来一道。

测试题六：高三摸底试卷题

同样，先来看看正确答案：B C D

混元T1正式版

DeepSeek R1

Qwen2.5-Max

又是没有一个答对，但Qwen2.5-Max选对了2个，混元T1正式版和DeepSeek则是选对了1个。

实际测试下来，发现居然分不出胜负，这三款模型的推理能力差不多实测都差不多。

虽然此次测试没有基准测试那么完整，但是也能看出每个模型的推理能力的强悍。

目前，混元T1正式版已面向API用户，在腾讯云上线，还未同步腾讯自家C端产品。

不过放出了体验地址：

https://llm.hunyuan.tencent.com/#/chat/hy-t1

在3月20日接受彭博社采访时，李开复划定了中美AI竞赛的终局格局。

中国将留下DeepSeek、阿里巴巴、字节跳动三家公司；美国则xAI、OpenAI、谷歌、Anthropic，四分天下。

看到腾讯混元T1的表现，难道还不能留在牌桌上？

（文：AI先锋官）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复