0.5B小模型逆袭!不到50元,「X-R1」让每个人都能复现Aha Moment

X-R1 是一个低成本且易入门的强化学习训练框架,旨在降低 R1 的复现门槛。通过使用0.5B预训练模型,在4张3090/4090显卡上仅需2小时就实现了 ‘aha Moment’,展示了极小模型也能触发Aha Moment的现象。

Cell子刊《Patterns》最新综述:大语言模型Attention Heads的可解释性研究

大语言模型(LLMs)的注意力头功能与工作机制引起了广泛关注。《Attention Heads of Large Language Models》综述论文整合了现有研究,提出四阶段认知框架和详细分类,并梳理实验方法与评估基准,为LLM可解释性研究提供了系统性的理论支持与实践指导。