模型优化归档

为什么 DeepSeek 大规模部署很便宜，本地很贵

2025年7月4日16时作者 AI前线

V3 据说在大规模服务时快速且便宜，但本地运行时却太慢且昂贵？为什么有些 AI 模型响应很慢，但一旦

2025年6月10日23时作者新智元

了OpenAI全新模型的秘密？据悉，新模型介于GPT-4.1和GPT-4.5之间，而下一代推理模型o

2025年5月28日16时作者量子位

阿里通义团队提出的新范式PARSCALE通过扩展CFG的双路径到P条并行路径，显著提升了1.6B模型的性能，仅占用后者的1/22内存，并将延迟增加量减少至1/6。该方法无需从头训练现有模型（如Qwen-2.5），并在GSM8K数学推理任务中实现了34%的性能提升。

2025年5月16日16时作者 AI前线

冲击性的影响，许多围绕 LLM 的技术架构的发展也一直在如火如荼的展开，比如 RAG 和 AI-Ag

2025年3月10日14时作者 GiantPandaCV

读
，这里简单回顾一下核心idea。之所以在 MLA 中使用DP的方式是因为 MLA 在存储 KV

2025年2月22日16时作者机器之心

多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，

2025年2月16日8时作者 NLP工程化

文章介绍了LLMs从预训练到微调的全过程，并涉及数据收集、分词、神经网络工作原理、推理过程、模型优化及性能提升方法。

2025年2月4日12时作者硅星人Pro

OpenAI发布新工具Deep Research，能为用户提供高效的独立研究助手。它能在互联网上快速搜索、分析并整合大量信息源生成高质量综合报告，覆盖金融、科学等专业领域。目前仅提供Pro用户每月100次查询额度。

2025年2月1日12时作者钛媒体AGI

中国AI模型DeepSeek引发的全球讨论热潮持续近半个月，美国OpenAI公司终于发布新模型对此进