智谱全面发力开源,推理模型很快,但快的不止模型
今天智谱发布基座模型、推理模型和沉思模型,并上线全球域名 Z.ai;正式启动IPO进程。GLM-4-32B-0414 模型性能领先,GLM-Z1-32B-0414 和 GLM-Z1-9B-0414 提供不同规模选择。智谱 MAS 开放平台支持企业与开发者使用 API 服务。同时,智谱正加速推进IPO进程。
今天智谱发布基座模型、推理模型和沉思模型,并上线全球域名 Z.ai;正式启动IPO进程。GLM-4-32B-0414 模型性能领先,GLM-Z1-32B-0414 和 GLM-Z1-9B-0414 提供不同规模选择。智谱 MAS 开放平台支持企业与开发者使用 API 服务。同时,智谱正加速推进IPO进程。
华为训练出的盘古Ultra模型参数量为135B,在数学、编程等推理任务中与DeepSeek-R1相当。该模型在预训练和指令调优阶段采用了Sandwich-Norm层归一化、TinyInit初始化策略及多并行优化技术,实现了52%以上的算力利用率,并在多个数据集上取得优异表现。
智谱发布新一代开源模型GLM-4-32B-0414系列,包含基座、推理、沉思模型权重,并遵循MIT License。推理模型GLM-Z1-Air/AirX-0414模型推理速度最高可达200 Tokens/秒,价格仅是DeepSeek-R1的1/30。
Skywork-OR1发布,7B参数量模型在AIME数学竞赛中得分69.8,性能媲美671B DeepSeek-R1,开源模型、数据和代码助力研究。
字节跳动发布Seed-Thinking-v1.5技术细节报告,其性能接近Gemini-2.5-Pro和O3-mini-high水平。
字节最新研发的Seed-Thinking-v1.5模型在数学、代码推理任务中表现优异,参数规模较小。该模型通过创新的数据处理方法、强化学习算法及基础设施优化提升了性能,并与其他领先模型进行了对比分析。
本文介绍了当前科研人员青睐的AI模型:o3-mini、DeepSeek-R1、Llama、Claude 3.5 Sonnet和Olmo 2。它们各有优劣,但为科研人员提供了多样选择。