大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普,AI工具测评,AI效率提升,AI行业洞察。关注我,AI之路不迷路,2025我们继续出发。
“Sir, China just released another model.”
OpenAI:……。
当全世界都在关注DeepSeek时,阿里通义又出手了!颇有“你方唱罢我登场”的意味。
大年初一,1月29日,阿里通义官宣正式发布模型Qwen2.5-Max
以及新平台Qwen Chat
。和一个月前的DeepSeek-V3
一样,同样是通用模型,同样是完全本地化的国产模型,同样炸裂的性能。
Qwen2.5-Max
模型是阿里通义团队对Mixture of Experts(MoE)模型架构的最新研究成果。MoE混合专家架构通过激活部分专家(Experts),使模型在保持大参数量的同时,减少实际计算开销,比稠密模型(Dense Model)更具性价比。DeepSeek-V3
也是同样的技术路线。此外,据称Qwen2.5-Max
该模型的预训练数据超过20万亿tokens,规模远超之前的版本(背靠阿里云,有钱任性)。
以下是Qwen2.5-Max
在Arena-Hard(人类偏好对齐)、MMLU-Pro(大学水平知识测验)、GPQA-Diamond(高难度问答,极具挑战性)、LiveCodeBench(编程测试)、LiveBench(综合考察)这5个基准测试中的表现,以及和其他通用模型的对比。
柱状图中,第1列是Qwen2.5-Max
的结果,第2列蓝色的是DeepSeek-V3
,很明显,Qwen2.5-Max
在5个测试中均超越了DeepSeek-V3
。几个模型中,表现垫底的是Llama 3.1 405B
。GPT-4o 0806
和Claude 3.5 Sonnet 1022
则与Qwen2.5-Max
旗鼓相当,有输有赢。
下面则是阿里官方放出的各个基座模型的基准测试对比结果。
怎么用Qwen2.5-Max?
需注意,和DeepSeek-V3
不同的是,Qwen2.5-Max
是一个闭源模型,意味着阿里并未开源其权重。
Qwen2.5-Max
的使用方式和之前有所不同,共有2种方式。
新平台Qwen Chat:https://chat.qwenlm.ai/
API调用:阿里云百炼平台
Qwen2.5-Max实测
注意,Qwen2.5-Max
是一个通用模型,对标的是GPT-4o
、Claude 3.5 Sonnet
以及DeepSeek-V3
,所以对于它的推理能力、解难题的能力不用抱太大期望。因为肯定是不如DeepSeek-R1
的。
新推出的Qwen Chat平台很有意思,把通义旗下的大大小小的模型都放了出来,让用户免费试用。
并且新增了“战斗”模式,你可以选择至多3个模型,让它们回答同一个问题,然后可以做横向对比,看看谁更强。
就像下面一样。
回答的展示效果是这样的。
Qwen2.5-Max
轻松通过“草莓测试”。
经典的“宝匣问题”也是顺利通过。
Qwen Chat也支持“Artifacts”预览模式,也就是我在《为了迎战DeepSeek,ChatGPT新增这些功能!》这篇文章里介绍的ChatGPT和Claude都有的功能。我们来试一试。
还是同样的问题:画一个时间轴,其中展示出中国近代史的重大历史事件。
Qwen2.5-Max
是用 HTML + CSS 实现的。
乍一看右边的预览图可能有些奇怪,但展开后还可以。就是整体设计略显单调,美观性差点。
拿个24点问题小试牛刀,Qwen2.5-Max
不出意外的拉胯了。
结语
通义新平台不错,模型和功能都挺齐全。
(文:AI信息Gap)