PaperWeekly，作者每时AI - 第30页共37页

低精度只适用于未充分训练的LLM？腾讯提出LLM量化的Scaling Laws

下午11时 2024/12/30 作者 PaperWeekly

即插即用举例
本文来自
腾讯 AI Lab，介绍了
一套针对于低比特量化的 Scaling Laws

更换激活函数就能大幅提升推荐性能和鲁棒性？从成对视角重新审视推荐系统中的Softmax损失函数

下午11时 2024/12/30 作者 PaperWeekly

论文标题：
PSL: Rethinking and Improving Softmax Loss f

CMU等提出MagicPIG！把注意力计算丢给CPU，大模型解码吞吐量提升4.99倍

上午8时 2024/12/30 作者 PaperWeekly

©作者 |
Zhuoming Chen
单位 |
卡耐基梅隆大学
CPU+GPU，模型 KV 缓存压

NeurIPS 2024 基于视觉-语言预训练模型的提示词微调理论分析框架

上午8时 2024/12/30 作者 PaperWeekly

本文介绍了上海科技大学 YesAI Lab 在 NeurIPS 2024 发表的工作《Federated Learning from Vision-Language Foundation Models: Theoretical Analysis and Method》。研究针对视觉-语言模型在联邦学习中的提示词微调提出理论分析框架，引入特征动力学理论并设计了PromptFolio机制，在平衡全局与个性化提示词的同时提升性能。

澳国立推出A³-CodGen框架：多维知识融合助力代码仓库级别代码生成

上午8时 2024/12/30 作者 PaperWeekly

论文提出A³-CodGen框架，通过整合本地、全局和第三方库信息提升LLMs生成高质量代码的能力。该框架包括知识构建、三类知识检索及代码生成三个阶段。实验表明，全面知识增强显著提升了LLMs的复用能力和正确性。

长文本+o1？评估LLM在真实世界长文本多任务中的深度理解与推理能力

下午2时 2024/12/27 作者 PaperWeekly

近年来，长文本大语言模型的研究取得了显著进展，模型的上下文窗口长度已经从最初的 8k 扩展到 128

KDD 2025 人大团队提出多任务贝叶斯联邦学习算法，同时处理分类和回归

下午2时 2024/12/27 作者 PaperWeekly

本文介绍了一篇关于多任务贝叶斯联邦学习的文章，该文章在KDD 2025上被接收。通过结合局部设备下的多任务学习与全局水平的联邦学习，缓解了有限数据下的过拟合问题，并展示了其在分类和回归任务中的优越性能。

人大高瓴发布FlashRAG-Paddle！基于PaddleNLP的高效开发与评测RAG框架

下午8时 2024/12/26 作者 PaperWeekly

论文标题：
FlashRAG: A Modular Toolkit for Efficient Re

AAAI 2025 港大提出SparX：强化Vision Mamba和Transformer的稀疏跳跃连接机制

下午8时 2024/12/26 作者 PaperWeekly

本文分享香港大学计算和数据科学学院俞益洲教授及其研究团队发表于 AAAI 2025 的论文——Spa

微软亚洲研究院发布MMLU-CF：无污染的大语言模型理解基准来了！

下午8时 2024/12/26 作者 PaperWeekly

微软亚洲研究院推出MMLU-CF，一个基于公开数据源且去污染设计的大语言模型理解基准，旨在提供更为准确、公平的评估。