阿里半夜开源全新推理模型,QwQ-32B比肩DeepSeek-R1满血版

阿里开源发布新推理模型QwQ-32B,参数量为320亿。其性能可媲美6710亿参数的DeepSeek-R1满血版。千问团队通过大规模强化学习提升了模型的推理能力,在数学和编程任务上表现优异,并提供了API使用指南。

DeepSeek V3 引发AI路径之辩:从“鹦鹉学舌”到“乌鸦喝水”?

DeepSeek V3 是一款6710亿参数的开源模型,在训练成本上仅需278.8万GPU小时。其技术创新包括多头潜在注意力(MLA)和混合专家架构(MoE),展示了在推理效率和成本控制上的潜力,引发了业界对于更经济实惠AI路径的关注与讨论。