跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

MoE

A Visual Guide to Mixture of Experts (MoE)

上午8时 2025/02/22 作者 NLP工程化

混合专家模型(MoE)通过动态选择子模型处理不同输入,显著降低计算成本并提升表现,核心组件包括专家网络、路由机制和稀疏激活。

分类 开源 标签 MoE、 任务适应性、 混合专家模型、 灵活性与扩展性、 计算高效性、 负载均衡损失函数 发表评论

豆包推出全新稀疏模型架构 UltraMem了

下午11时 2025/02/12 作者 陳寳

字节跳动豆包团队提出UltraMem架构,通过分层动态内存结构、Tucker分解检索和隐式参数扩展三项创新突破MoE架构的瓶颈,推理成本降幅最高83%,速度提升6倍,入选ICLR 2025。

分类 分享 标签 83%、 ICLR 2025、 MoE、 UltraMem、 字节跳动、 成本降幅 发表评论

李建忠:DeepSeek 关键技术创新及对 AI 生态的影响

下午4时 2025/02/06 作者 AI科技大本营

【导读】
全球 AI 竞赛正酣,DeepSeek 的出现,宛如一石激水,打破了原有的平静。作为资深技

分类 分享 标签 DeepSeek、 MIT许可、 MLA、 MoE、 后训练强化学习、 经典Transformer 发表评论

SGLang的Expert Parallel特性解读

下午2时 2025/01/12 作者 GiantPandaCV

0x0. 前言
最近在SGlang仓库下做了一段时间的开发和学习,对SGLang的一些比较新的Fea

分类 学术 标签 All2All、 FalshInfer、 Group GEMM、 MoE、 SGLang、 Triton Kernel 发表评论
较新文章
← 上一页 页面1 页面2

2025年 AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Manus Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克

近期文章

  • 78%主创跳槽!Llama 14名作者只剩3人,Meta最强开源模型团队大溃散引争议
  • 阿里云发布通义灵码 AI IDE,深度适配千问 3 大模型、新增编程智能体,可调用 3000+ MCP 服务
  • 新版DeepSeek R1你得这样用,太爽啦~
  • 工业级耐用之选!盈连砂带机:耐磨抗造,多材质打磨一“机”搞定
  • AI之父Hinton:想知道不是最聪明物种的感觉?去问鸡吧

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
2025 年 5 月
一 二 三 四 五 六 日
 1234
567891011
12131415161718
19202122232425
262728293031  
« 4 月    

归档

  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×