混合专家模型归档

揭秘千卡 GPU 集群如何高效训练多模态大模型：vivo AI 团队实战经验分享｜AICon

2025年6月18日16时作者 AI前线

客服、自动驾驶、AIGC 等领域的应用需求不断增长，但其训练工程面临计算、存储、数据处理、分布式通信

通俗易懂看技术：24张流程图直观理解LLM、RAG及Agent

2025年5月25日14时作者老刘说NLP

2025年5月24日周六，北京晴天。本文总结了大模型微调与训练、RAG及AgenticRAG等7张图，以及Agent、MCP和Functioncall的9张图。这些内容可供参考并作为验证标准，有助于深度思考和体系化学习。

谷歌重磅推出全新Scaling Law，抢救Transformer！3万亿美元AI面临岔路

2025年3月16日23时作者新智元

iLoCo被证明更好、更快、更强，可在多个数据中心训练越来越大的LLM。
测试时计算之后，谷歌三大团

刚刚，DeepSeek开源DeepEP，公开大模型训练效率暴涨秘诀！

2025年2月25日12时作者 AIGC开放社区

专注AIGC领域的专业社区分享了开源的DeepEP库，用于优化混合专家模型训练和推理。DeepEP支持高效的All-to-All通信机制、高吞吐量和低延迟内核，以及原生支持FP8格式。

A Visual Guide to Mixture of Experts (MoE)

2025年2月22日8时作者 NLP工程化

混合专家模型(MoE)通过动态选择子模型处理不同输入，显著降低计算成本并提升表现，核心组件包括专家网络、路由机制和稀疏激活。

DeepSeek 的秘方是硅谷味儿的

2025年1月8日16时作者硅星人Pro

年度盘点第二弹：关于DeepSeek。
DeepSeek 不是“中国式创新” 的产物
中国杭州的人工

DeepSeek-VL2开源MoE 视觉语言模型家族，Gemini英语口语助手，将 PDF 文档转换为互动式思维导图

2024年12月16日10时作者每日AI新工具

本文介绍了DeepSeek-VL2、Leffa、小红书笔记生成器、Gemini 英语口语助手和PDF Mind Map Maker等创新技术与应用。它们涵盖多模态视觉-语言模型、可控人物图像生成框架、笔记生成工具及AI英语口语辅助等多个领域，提供高效便捷的功能以提升用户在不同场景下的工作效率和体验质量。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31