6710亿参数归档

重磅！QwQ-32B 本地部署全攻略：用 Ollama 一键运行，轻松上手！

下午2时 2025/03/11 作者 AI技术研习社

通过Ollama在本地安装、设置并运行QwQ-32B模型，学习如何使用Gradio创建一个逻辑推理助手。QwQ-32B具有高效运行和隐私保护等优势。

上午8时 2025/03/08 作者 AIGC开放社区

阿里巴巴开源了QwQ-32B大模型，其在主流测试基准上表现优异。该模型通过冷启动和大规模强化学习提升性能，具备数学解题及编程任务能力，并集成了与Agent相关的能力。

下午4时 2025/03/06 作者机器之心

阿里开源发布新推理模型QwQ-32B，参数量为320亿。其性能可媲美6710亿参数的DeepSeek-R1满血版。千问团队通过大规模强化学习提升了模型的推理能力，在数学和编程任务上表现优异，并提供了API使用指南。

下午4时 2025/01/29 作者新智元

新智元报道
DeepSeek团队通过优化英伟达GPU的PTX指令集，绕过了CUDA实现了高效训练超大规模语言模型。这一突破引发了业界对CUDA护城河的质疑。

下午12时 2025/01/26 作者钛媒体AGI

继OpenAI推出首个AI Agent（代理、智能体）应用产品后，国内大厂也公布类似Operator

下午10时 2024/12/30 作者 AI先锋官

DeepSeek V3 是一款6710亿参数的开源模型，在训练成本上仅需278.8万GPU小时。其技术创新包括多头潜在注意力（MLA）和混合专家架构（MoE），展示了在推理效率和成本控制上的潜力，引发了业界对于更经济实惠AI路径的关注与讨论。