阿里Qwen团队发布首个开源推理模型QwQ-32B-preview!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

昨天(北京时间11月28日),全球首个开源的推理模型诞生了:来自阿里Qwen团队QwQ-32B-preview模型!

最近这段时间,国内AI领域中,“推理模型”卷的厉害。先是DeepSeek(深度求索)发布了国内首个对标o1的推理模型DeepSeek-R1-Lite,接着是月之暗面正式发布了Kimi数学版,对应的模型为k0-math。紧接着昆仑万维开启了天工大模型 4.0 o1版的邀请测试,该模型英文名Skywork o1,从命名也能看出它是个什么模型了吧。

接下来就是阿里的通义团队(Qwen团队),出手即王炸,直接发布了开源的推理模型QwQ-32B-preview

该模型的名字有点意思,QWQ看起来像是一个颜文字,Qwen团队官方表示发音为/kwju:/,与单词“quill”的读音近似。

QwQ-32B-preview在各项基准测试中的表现如下。

老规矩,先解释一下这些基准测试。

  1. GPQA: 测试模型在常识问答和通用知识理解上的能力。
  2. AIME: 检验模型对高难度数学竞赛题目的解题能力。
  3. MATH-500: 测评模型在广泛数学领域中解决复杂问题的表现。
  4. LiveCodeBench: 测试模型生成、调试和实现代码的编程能力。

可以看到,QwQ-32B-preview综合表现优异,并且各项能力比较均衡,没有“偏科”情况。在MATH-500测评中甚至超过了OpenAI的2个o1模型。作为一个推理模型,QwQ-32B-preview的综合表现已全面超越常规模型,如GPT-4oClaude 3.5 Sonnet

另外,值得注意的是,QwQ-32B-preview是一个模型参数仅有32B的小模型!更轻量化的模型意味着更高的计算资源效率、更快的推理速度,以及更低的硬件需求。这种高性能的小模型能够有更大的使用场景,值得关注。

在此,附上Kimi-k0-math和DeepSeek-DeepSeek-R1-Lite的测评结果。毕竟大家都是以o1作为对标模型,还是有一定的对比和参考意义的。


QwQ-32B-preview项目地址

QwQ模型地址:https://huggingface.co/Qwen/QwQ-32B-Preview

QwQ体验地址:https://huggingface.co/spaces/Qwen/QwQ-32B-preview

QwQ-32B-preview初体验

目前Qwen团队提供了QwQ-32B-preview免费的在线体验方式。感兴趣的小伙伴可以通过上面那个Hugging Face Spaces(中文俗称:抱抱脸)平台的链接进行体验。

还是先来测试一个草莓测试。

Strawberry一词中有多少个字母“r”?

和Kimi一样,QwQ-32B-preview也会把完整的推理过程打印出来。从下面的回答可以看出,QwQ-32B-preview回答正确无误,用了数数的方式来解答。

但细看推理过程可以发现,QwQ-32B-preview是出现了一定幻觉的,比如它提到“但是,我觉得可能数错了,因为草莓这个词里好像有两个r”。

接着来测试一道官方推荐的逻辑推理问题。

S先生、P先生、Q先生他们知道桌子的抽屉里有16张扑克牌:红桃A、Q、4 黑桃J、8、4、2、7、3 草花K、Q、5、4、6 方块A、5。约翰教授从这16张牌中挑出一张牌来,并把这张牌的点数告诉 P先生,把这张牌的花色告诉Q先生。这时,约翰教授问P先生和Q 先生:你们能从已知的点数或花色中推知这张牌是什么牌吗?于是,S先生听到如下的对话:

P先生:我不知道这张牌。

Q先生:我知道你不知道这张牌。

P先生:现在我知道这张牌了。

Q先生:我也知道了。

请问:这张牌是什么牌?

这是非常复杂的一道多步逻辑推理题目,答案是方块5。QwQ-32B-preview的回答正确,推理过程也完全正确。只是由于它打印出了完整的推理过程,导致回答看起来会很强,可读性比较差。另外,QwQ-32B-preview的回答主要是中文,其中夹杂着些许英文,看起来比较奇怪。

结语

发布QwQ-32B-preview模型的同时,Qwen团队很真诚地指出了该模型的几个局限:1)语言切换问题导致回答不够连贯;2)推理循环现象可能使复杂逻辑问题的回答冗长且不聚焦;3)安全性不足需要进一步优化,以防止不当输出和对抗攻击;4)能力差异明显,虽然在数学和编程领域表现出色,但其他领域尚有提升空间。



精选推荐

  1. 国内支付宝开通ChatGPT Plus和Claude Pro 2024最新教程!
  2. 『AI保姆级教程』无需手机号!三分钟注册ChatGPT账号!2024年最新教程!
  3. 『AI保姆级教程』手把手教你注册Claude账号!建议收藏!



(文:AI信息Gap)

欢迎分享

发表评论