英伟达提出全新Star Attention,10倍加速LLM推理!登顶Hugging Face论文榜

英伟达提出的新技术Star Attention能显著减少Transformer模型长序列推理时的计算量,从而提高效率和准确性。它通过将上下文分成较小块并在每个主机上独立处理这些块来实现,这有助于在不牺牲精度的情况下加速推理过程。

Andrej Karpathy 首次公开私人邮件:揭秘Transformer 注意力机制真相

揭秘Transformer‘注意力’机制的起源故事,它源于2014年实习生Dzmitry Bahdanau在Yoshua Bengio实验室中的实践思考与创新。通过软搜索设计解决了序列到序列模型中的瓶颈问题,最终提出RNNSearch架构,并引入softmax加权平均技术。

《大模型白盒子构建指南》毕业,仅需2G显存,手搓关于LLM的一切!

《大模型白盒子构建指南》旨在帮助读者从基础原理出发,独立复现一个清晰、可用的大模型系统。项目涵盖大模型架构、预训练、RAG框架、Agent系统及评估体系等内容,适合有一定深度学习和NLP经验的学习者。