DeepSeek-V3归档 - 第5页共5页

突然刷屏的ai界“拼多多”deepseek

下午2时 2024/12/27 作者 AI先锋官

年底沉寂的AI 行业，突然被一家中国公司刷屏。DeepSeek-v3 发布后，性能比肩GPT-4、Claude 3.5等开源模型。作为华裔，Alexandr Wang 称其为“全球最佳开源LLM”，并称赞其高效生成方式和成本优势。

下午12时 2024/12/27 作者机器之心

机器之心报道
机器之心编辑部
今天，一个国产大模型火遍了世界。
打开 X，满眼都是讨论 DeepSe

上午10时 2024/12/27 作者每日AI新工具

本文介绍了5款AI模型和技术产品：CogAgent改进视觉语言模型的GUI代理；DeepSeek-V3参数量大的混合专家语言模型；Valley 2.0字节跳动开发的多模态大模型；devb.io简化生成开发者个人简历的过程；Memory Layers提供大规模分布式训练的参考实现。

上午10时 2024/12/27 作者 AI寒武纪

2024年12月26日，DeepSeek AI发布其最新大型语言模型DeepSeek-V3，每秒处理60个token，采用FP8训练、MoE架构、无辅助损失负载均衡策略和多令牌预测目标等技术。该模型仅花费不到600万美金完成训练，并且支持高效推理与本地部署。