MoE模型
又一个满血版!问小白的DeepSeek-R1太猛了:比其他快一倍,不卡不限次,免费用!
今天分享了一款快、稳且免费的R1满血版推理模型平台——问小白。界面简洁,提问后2秒出第一个token,速度快于同类产品。适用于各种需要即时反馈的场景。
豆包模型上新:Doubao-1.5-pro
Doubao-1.5-pro 模型针对MoE模型的四个计算象限提出异构硬件结合低精度优化策略,提升吞吐量和降低总成本。通过定制化的RPC后端、灵活配比的Prefill和Decode集群以及GPU与CPU的异步化处理,实现高效稳定的推理系统。
一个关于MoE的猜想
本文提出了关于如何演进MoE模型的猜想,主要是在MoE Routing的基础上再套一层构建The Mixure of Expert Group(MoEG)。文章从代数和范畴论的角度分析了MoE模型的结构,并探讨了通过两层Routing Gate来优化模型并行计算和通信效率的方法。
在“全球最难糊弄榜单”里,阶跃星辰拿下国产第一
国产大模型阶跃星辰Step-2在指令跟随类别中以86.57的高评分排名第一。团队创新研发了从头开始训练的万亿参数MoE架构,提升了综合能力近50%,覆盖语言、多模态等全面能力。