大模型归档 - 第85页共87页

清华&面壁开源新一代主动Agent交互范式！让AI从被命令到主动帮助

下午8时 2024/11/28 作者 PaperWeekly

清华大学联合面壁智能团队提出新一代主动 Agent 交互范式，让 AI 成为具有’主观能动性’的智能助手。相比传统被动式 Agent，主动 Agent 能够根据上下文主动帮助用户。

下午2时 2024/11/27 作者 PaperWeekly

大模型采样问题得到解决，Top-nσ方法通过设定n个标准差阈值高效过滤噪声，显著提升模型输出质量。

下午2时 2024/11/27 作者 PaperWeekly

引言
大规模语言模型（LLMs）的有效性在很大程度上依赖于其预训练数据的规模和质量。然而，许多模型开

上午10时 2024/11/27 作者 AI信息Gap

木易公众号分享的Kimi新上线数学模型k0-math功能介绍及测试体验，该模型通过强化学习和思维链技术提升复杂问题处理能力，但用户反馈认为其回答过程繁琐冗长，不如其他同类模型简洁直接。

下午3时 2024/11/26 作者 AI信息Gap

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研

下午1时 2024/11/26 作者 PaperWeekly

本文揭示了推荐系统流行度偏差放大的原因，提出了一种基于正则项的方法——ReSN来缓解这一问题。通过引入谱范数正则项，约束评分矩阵的权重以减少流行度偏差的影响。

下午1时 2024/11/26 作者 PaperWeekly

国内GPU租赁市场火爆，价格跳水。智星云算力服务平台作为一枝独秀的平台，拥有1000P自有GPU算力，技术实力强、服务可靠、数据安全有保障。

下午1时 2024/11/26 作者 PaperWeekly

TokenFormer 是一种新的网络结构，通过在注意力机制中引入参数化键值对，实现了模型的灵活扩展和性能提升。它展示了在语言建模和视觉建模上的卓越能力，并提出了专家混合、参数高效微调、端云协同和增强可解释性等未来研究方向。

下午2时 2024/11/25 作者 PaperWeekly

《Current Best Practices for Training LLMs from Scratch》是一份关于从头开始训练大型语言模型的权威指南，内容涵盖数据收集与处理、模型架构选择、训练技巧与优化策略等各个环节。

下午2时 2024/11/25 作者 PaperWeekly

多模态大语言模型（MLLMs）在图像描述、视觉问答等场景有着良好的表现。然而，MLLMs 在需要复杂