实测腾讯混元T1正式版.vs.DeepSeek.vs.Qwen2.5-Max,推理能力哪家强?

作者|子川

来源AI先锋官

价格屠夫的称号建议直接焊在腾讯深度思考模型 T1上,太卷了!

昨晚,腾讯混元罕见的开直播发布它们最新的模型——深度思考模型混元T1正式版。

根据官方介绍,混元T1正式版在推理能力、长文本处理、成本效率三大维度实现突破性升级!

“吐字快、能秒回、逻辑强”。

小编实测,最直观体验首先也是,太快了!

与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

从放出的跑分成绩来看,混元T1正式版在多项评估指标上超越OpenAI o1、GPT-4.5,以及Deepseek R1。

如在大语言模型(LLM)评估增强数据集MMLU-PRO中,混元T1取得87.2分,仅次于得分89.3的OpenAI o1,高于得分86.1的OpenAI GPT 4.5和得分84的DeepSeek R1。

另外T1沿用了混元Turbo S的创新架构,首次在工业界实现混合Mamba架构无损应用于超大型推理模型,这一设计打破传统Transformer的算力桎梏。

最直观的体现就是在价格上——

输入价格为1元/百万tokens,输出价格为4元/百万tokens。

对比同类模型,T1的API定价堪称“价格屠夫”。

号称AI界“拼多多”的DeepSeek R1在标准时段的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

换句话说,混元T1的价格仅为DeepSeek R1的1/4,是文心 X1的1/2。

而海对面ChatGPT的价格一直居高不下。

GPT4.5的价格达到了75美元/百万tokens输入、150美元/百万tokens输出。
那混元T1正式版这款模型效果到底如何呢,老规矩,实测一手!
此次测试的选手是大家熟知的DeepSeek R1、Qwen2.5-Max以及腾讯新出的混元T1正式版。
先来一道简单的推理题开开胃。

测试题一:谁说谎?
有三个人,Alex、Ben和Cody,其中一个是骑士(总是说真话),一个是小丑(总是说假话),一个是间谍(随机说真话或假话)。Alex说:“Cody是小丑。”Ben说:“Alex是骑士。”Cody说:“我是间谍。”谁是骑士,谁是小丑,谁是间谍?

混元T1正式版

DeepSeek R1
Qwen2.5-Max
不愧是国内最前沿的推理模型,全部回答正确,看来,只能上上难度了。

测试题二:金币游戏

你和朋友轮流从一堆金币中取1、3或6枚。获胜者是最后取走金币的人。对于N<1000,第一位玩家有多少种赢得游戏的策略?

混元T1正式版

DeepSeek R1

Qwen2.5-Max

看DeepSeek思考了262秒就知道这道题已经足够难了,然后它们三居然又全部回答正确了。

看来只能拿出杀手锏了,之前Deepseek R1都回答错误的一道题。


测试题三:一根8米长的竹竿是否能通过一个4米高、2米宽的门?
混元T1正式版
DeepSeek R1

Qwen2.5-Max
纳尼!!!全部回答错误,之前全对,这次居然全错,整整齐齐。

测试题四:Eael在哪个部门工作

Alex、Betty、Carol、Dan、Earl、Fay、George 和 Harry 是一家公司的八名员工

他们在三个部门工作:人事、行政和营销,任何部门不超过三个。

他们每个人都有不同的运动选择,包括足球、板球、排球、羽毛球、草地网球、篮球、曲棍球和乒乓球,不一定顺序相同。

Dan 在行政部门工作,不喜欢足球或板球。
Fay 在人事部门工作,只有 Alex 喜欢乒乓球。
Earl 和 Harry 与 Dan 不在同一个部门工作。
Carol 喜欢曲棍球,不从事市场营销工作。
George 不在行政部门工作,不喜欢板球或羽毛球。
在行政部门工作的人之一喜欢足球。
喜欢排球的人在人事部门工作。
在行政部门工作的人都不喜欢羽毛球或草地网球。
哈利不喜欢板球。

在行政部门工作的员工是谁?

Earl 在哪个部门工作?

混元T1正式版

DeepSeek R1

Qwen2.5-Max

先来看一下正确答案:

三款模型又全军覆没了,但DeepSeek R1和元T1正式版成功推理出Betty、Carol 和 Dan 在行政部门工作,都没有回答出Earl在哪个部门工作
Qwen2.5-Max则是两部分都没有回答正确。
后续又测试了10多道之前测试过的推理题,基本上它们三全都推理正确,直接把我的测试题库给干没了,随后我们换一个思路,测试数学题。

测试题五:高三摸底试卷题
先公布正确答案:ACD
混元T1正式版

DeepSeek R1

Qwen2.5-Max
好家伙,又是全部正确…..一时间居然分不出差距来。再来一道。

测试题六:高三摸底试卷题
同样,先来看看正确答案:B C D
混元T1正式版
DeepSeek R1

Qwen2.5-Max

又是没有一个答对,但Qwen2.5-Max选对了2个,混元T1正式版和DeepSeek则是选对了1个。
实际测试下来,发现居然分不出胜负,这三款模型的推理能力差不多实测都差不多。
虽然此次测试没有基准测试那么完整,但是也能看出每个模型的推理能力的强悍。
目前,混元T1正式版已面向API用户,在腾讯云上线,还未同步腾讯自家C端产品。

不过放出了体验地址:

https://llm.hunyuan.tencent.com/#/chat/hy-t1
在3月20日接受彭博社采访时,李开复划定了中美AI竞赛的终局格局。
中国将留下DeepSeek、阿里巴巴、字节跳动三家公司;美国则xAI、OpenAI、谷歌、Anthropic,四分天下。
看到腾讯混元T1的表现,难道还不能留在牌桌上?

 

(文:AI先锋官)

欢迎分享

发表评论