DeepSeek-R1归档 - 第2页共16页

英伟达含量为零！华为密集模型性能比肩DeepSeek-R1，纯昇腾集群训练

下午4时 2025/04/15 作者量子位

华为训练出的盘古Ultra模型参数量为135B，在数学、编程等推理任务中与DeepSeek-R1相当。该模型在预训练和指令调优阶段采用了Sandwich-Norm层归一化、TinyInit初始化策略及多并行优化技术，实现了52%以上的算力利用率，并在多个数据集上取得优异表现。

上午11时 2025/04/15 作者财联社AI daily

智谱发布新一代开源模型GLM-4-32B-0414系列，包含基座、推理、沉思模型权重，并遵循MIT License。推理模型GLM-Z1-Air/AirX-0414模型推理速度最高可达200 Tokens/秒，价格仅是DeepSeek-R1的1/30。

上午8时 2025/04/15 作者 NLP工程化

Skywork-OR1发布，7B参数量模型在AIME数学竞赛中得分69.8，性能媲美671B DeepSeek-R1，开源模型、数据和代码助力研究。

上午8时 2025/04/12 作者 NLP工程化

字节跳动发布Seed-Thinking-v1.5技术细节报告，其性能接近Gemini-2.5-Pro和O3-mini-high水平。

下午4时 2025/04/11 作者量子位

字节最新研发的Seed-Thinking-v1.5模型在数学、代码推理任务中表现优异，参数规模较小。该模型通过创新的数据处理方法、强化学习算法及基础设施优化提升了性能，并与其他领先模型进行了对比分析。

下午11时 2025/04/08 作者开源AI项目落地

款快速集群化部署各种大模型的轻量级平台工具，具备零代码、易管理、高性能，易扩展的优势特点，15分钟即

下午2时 2025/03/28 作者 Hugging Face

和合成数据——也才过了一周。这篇文章简单聊聊:
https://github.com/hugging

上午11时 2025/03/25 作者新智元

本文介绍了当前科研人员青睐的AI模型：o3-mini、DeepSeek-R1、Llama、Claude 3.5 Sonnet和Olmo 2。它们各有优劣，但为科研人员提供了多样选择。

下午2时 2025/03/24 作者小兵的AI视界

是一个高性能的
C/C++
库，专门用于运行
LLM
，支持多种硬件加速选项。
本文将详细介绍如何