PaperWeekly
从ReFT, Kimi K1.5到DeepSeek R1,聊聊Reasoning Model的精巧实现
理模型)异常火爆,Kimi 和 DeepSeek 陆续推出自家的产品 K1.5 和 R1,效果追评甚
0.5B小模型逆袭!不到50元,「X-R1」让每个人都能复现Aha Moment
X-R1 是一个低成本且易入门的强化学习训练框架,旨在降低 R1 的复现门槛。通过使用0.5B预训练模型,在4张3090/4090显卡上仅需2小时就实现了 ‘aha Moment’,展示了极小模型也能触发Aha Moment的现象。
Cell子刊《Patterns》最新综述:大语言模型Attention Heads的可解释性研究
大语言模型(LLMs)的注意力头功能与工作机制引起了广泛关注。《Attention Heads of Large Language Models》综述论文整合了现有研究,提出四阶段认知框架和详细分类,并梳理实验方法与评估基准,为LLM可解释性研究提供了系统性的理论支持与实践指导。
ICLR 2025 比MoE快6倍,成本暴降83%!字节发布超稀疏架构UltraMem
文章介绍了字节跳动豆包大模型团队提出的新稀疏模型架构 UltraMem,该架构有效解决了 MoE 推理时高额的访存问题,推理速度提升2-6倍,成本降低83%。