微软深夜发布SambaY架构，Phi-4min加速10倍推理

微软在Phi-4-mini 的版本基础上，针对数学问题解决和多跳问答等密集推理任务，针对高质量的合成数据微调出Phi-4-mini-Flash-Reasoning 3B模型。

将Phi-4-mini扩展到了200064 tokens。

采用 Microsoft 的新型 SambaY 解码器-混合-解码器架构构建，支持 64K token上下文长度，提供可靠的逻辑密集型性能部署，并且在长上下文任务中的运行速度比其前代产品快 10×。

Phi-4-mini-flash-reasoning 架构

Phi-4-mini-flash-reasoning 的核心：新引入的解码器-混合-解码器架构 SambaY。

SambaY核心创新是门控内存单元（GMU），是一种简单而有效的机制，用于在层之间共享表示。
该架构包括一个自解码器，它结合了 Mamba（一种状态空间模型）和滑动窗口注意力（SWA），以及一个完整的注意力单层。
还涉及一个交叉解码器，该解码器将昂贵的交叉注意力层与新的高效 GMU 交错。这种带有 GMU 模块的新架构大大提高了解码效率，提高了长上下文检索性能，并使该架构能够在各种任务中提供卓越的性能。

SambaY 架构的主要优点包括：

https://huggingface.co/microsoft/Phi-4-mini-flash-reasoning

https://arxiv.org/pdf/2507.06607

（文：PaperAgent）