PaperWeekly
WSDM 2025 从谱视角揭开推荐系统流行度偏差放大之谜
本文揭示了推荐系统流行度偏差放大的原因,提出了一种基于正则项的方法——ReSN来缓解这一问题。通过引入谱范数正则项,约束评分矩阵的权重以减少流行度偏差的影响。
Token化一切!北大、谷歌等提出TokenFormer,Transformer从未这么灵活过
TokenFormer 是一种新的网络结构,通过在注意力机制中引入参数化键值对,实现了模型的灵活扩展和性能提升。它展示了在语言建模和视觉建模上的卓越能力,并提出了专家混合、参数高效微调、端云协同和增强可解释性等未来研究方向。
王者归来!白皮书《从头训练大模型最佳实践》开源了
《Current Best Practices for Training LLMs from Scratch》是一份关于从头开始训练大型语言模型的权威指南,内容涵盖数据收集与处理、模型架构选择、训练技巧与优化策略等各个环节。