每2秒吃透一道高数大题!华为终于揭秘准万亿MoE昇腾训练系统全流程 下午4时 2025/05/30 作者 量子位 K,短短2秒钟时间,一个 准万亿MoE大模型 就已经吃透如何解一道 高等数学大题 了! 而且啊,这个
苹果提出原生多模态Scaling Law!早融合+MoE,性能飙升秘密武器 下午4时 2025/05/05 作者 新智元 研究发现原生早融合架构在低计算预算下性能更优,并引入混合专家技术显著提升了多模态模型的性能。
DeepSeek-VL2开源,VLM迈入MoE时代~ 下午10时 2024/12/13 作者 PaperAgent DeepSeek-VL2是先进的大型混合专家视觉-语言模型系列,显著改进了其前身DeepSeek-VL,在包括视觉问题回答、光学字符识别、文档/表格/图表理解以及视觉定位等多种任务上表现出卓越的能力。