大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“外挂”，所以创建了“AI信息Gap”这个公众号，专注于分享AI全维度知识，包括但不限于AI科普，AI工具测评，AI效率提升，AI行业洞察。关注我，AI之路不迷路，2024我们一起变强。

昨天（北京时间11月28日），全球首个开源的推理模型诞生了：来自阿里Qwen团队的QwQ-32B-preview模型！

最近这段时间，国内AI领域中，“推理模型”卷的厉害。先是DeepSeek（深度求索）发布了国内首个对标o1的推理模型DeepSeek-R1-Lite，接着是月之暗面正式发布了Kimi数学版，对应的模型为k0-math。紧接着昆仑万维开启了天工大模型 4.0 o1版的邀请测试，该模型英文名Skywork o1，从命名也能看出它是个什么模型了吧。

接下来就是阿里的通义团队（Qwen团队），出手即王炸，直接发布了开源的推理模型QwQ-32B-preview。

该模型的名字有点意思，QWQ看起来像是一个颜文字，Qwen团队官方表示发音为/kwju:/，与单词“quill”的读音近似。

QwQ-32B-preview在各项基准测试中的表现如下。

老规矩，先解释一下这些基准测试。

GPQA: 测试模型在常识问答和通用知识理解上的能力。
AIME: 检验模型对高难度数学竞赛题目的解题能力。
MATH-500: 测评模型在广泛数学领域中解决复杂问题的表现。
LiveCodeBench: 测试模型生成、调试和实现代码的编程能力。

可以看到，QwQ-32B-preview综合表现优异，并且各项能力比较均衡，没有“偏科”情况。在MATH-500测评中甚至超过了OpenAI的2个o1模型。作为一个推理模型，QwQ-32B-preview的综合表现已全面超越常规模型，如GPT-4o和Claude 3.5 Sonnet。

另外，值得注意的是，QwQ-32B-preview是一个模型参数仅有32B的小模型！更轻量化的模型意味着更高的计算资源效率、更快的推理速度，以及更低的硬件需求。这种高性能的小模型能够有更大的使用场景，值得关注。

在此，附上Kimi-k0-math和DeepSeek-DeepSeek-R1-Lite的测评结果。毕竟大家都是以o1作为对标模型，还是有一定的对比和参考意义的。

QwQ-32B-preview项目地址

QwQ模型地址：https://huggingface.co/Qwen/QwQ-32B-Preview

QwQ体验地址：https://huggingface.co/spaces/Qwen/QwQ-32B-preview

QwQ-32B-preview初体验

目前Qwen团队提供了QwQ-32B-preview免费的在线体验方式。感兴趣的小伙伴可以通过上面那个Hugging Face Spaces（中文俗称：抱抱脸）平台的链接进行体验。

还是先来测试一个草莓测试。

Strawberry一词中有多少个字母“r”？

和Kimi一样，QwQ-32B-preview也会把完整的推理过程打印出来。从下面的回答可以看出，QwQ-32B-preview回答正确无误，用了数数的方式来解答。

但细看推理过程可以发现，QwQ-32B-preview是出现了一定幻觉的，比如它提到“但是，我觉得可能数错了，因为草莓这个词里好像有两个r”。

接着来测试一道官方推荐的逻辑推理问题。

S先生、P先生、Q先生他们知道桌子的抽屉里有16张扑克牌：红桃A、Q、4 黑桃J、8、4、2、7、3 草花K、Q、5、4、6 方块A、5。约翰教授从这16张牌中挑出一张牌来，并把这张牌的点数告诉 P先生，把这张牌的花色告诉Q先生。这时，约翰教授问P先生和Q 先生：你们能从已知的点数或花色中推知这张牌是什么牌吗？于是，S先生听到如下的对话：

P先生：我不知道这张牌。

Q先生：我知道你不知道这张牌。

P先生：现在我知道这张牌了。

Q先生：我也知道了。

请问：这张牌是什么牌？

这是非常复杂的一道多步逻辑推理题目，答案是方块5。QwQ-32B-preview的回答正确，推理过程也完全正确。只是由于它打印出了完整的推理过程，导致回答看起来会很强，可读性比较差。另外，QwQ-32B-preview的回答主要是中文，其中夹杂着些许英文，看起来比较奇怪。

结语

发布QwQ-32B-preview模型的同时，Qwen团队很真诚地指出了该模型的几个局限：1）语言切换问题导致回答不够连贯；2）推理循环现象可能使复杂逻辑问题的回答冗长且不聚焦；3）安全性不足需要进一步优化，以防止不当输出和对抗攻击；4）能力差异明显，虽然在数学和编程领域表现出色，但其他领域尚有提升空间。

精选推荐

国内支付宝开通ChatGPT Plus和Claude Pro 2024最新教程！
『AI保姆级教程』无需手机号！三分钟注册ChatGPT账号！2024年最新教程！
『AI保姆级教程』手把手教你注册Claude账号！建议收藏！

（文：AI信息Gap）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

阿里Qwen团队发布首个开源推理模型QwQ-32B-preview！

QwQ-32B-preview项目地址

QwQ-32B-preview初体验

结语

精选推荐

发表评论取消回复

QwQ-32B-preview项目地址

QwQ-32B-preview初体验

结语

精选推荐

发表评论 取消回复

发表评论取消回复