阿里开源推理模型QwQ-32B,实测PK比他大20倍的DeepSeek-R1

阿里巴巴发布全新推理模型QwQ-32B,参数量为32亿,在多项基准测试中与DeepSeek-R1相当或优于OpenAI的模型。展示了出色的逻辑推理、数学分析和知识储备能力,但在处理复杂问题、运用物理知识和理解特定领域概念方面仍有提升空间。

DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

DeepSeek-R1-Preview 模型已在代码基准测试 LiveCodeBench 上表现优异,与 OpenAI 的中档推理设置相当。尽管仍为预览版,但已从轻量版升级,且LiveCodeBench团队正在评估其能力。

刚刚,阶跃星辰发布Step R-mini!推理模型从此不再文理偏科

阶跃星辰发布的Step Reasoner mini是首个推理模型,擅长逻辑推理、代码和数学问题,并能进行文学创作。该模型通过强化学习训练,实现文理兼修。它在AIME 2024和Math500测试中均表现出色,且具有较好的泛化性。