首个基于统计学的线性注意力机制ToST,高分拿下ICLR Spotlight 下午12时 2025/02/17 作者 机器之心 多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,
AAAI 2025 大模型会组合关系推理吗?打开黑盒,窥探Transformer脑回路 下午12时 2025/02/06 作者 机器之心 AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000
阶跃公开了自家新型注意力机制:KV缓存消耗直降93.7%,性能不减反增 下午4时 2025/01/17 作者 机器之心 研究提出多矩阵分解注意力(MFA)及其变体 MFA-Key-Reuse,大幅降低语言模型推理成本的同时实现性能提升。
谷歌推出Transformer架构的继任者Titans:训练代码也会公开 下午11时 2025/01/16 作者 AI寒武纪 谷歌发布的新架构Titans引入了神经长期记忆模块,能够在测试时学习记忆,提高模型上下文长度的同时保持快速推理能力。
机器学习入门学习资源列表:awesomeMLSys 上午8时 2025/01/10 作者 NLP工程化 GitHub 上的 awesomeMLSys 提供了机器学习入门的学习资源列表,涵盖多个方面的内容,帮助深入学习和理解机器学习。
从文字到视觉:EvalMuse-40K如何评价T2I模型的进化 下午4时 2025/01/06 作者 PaperWeekly ©PaperWeekly 原创 · 作者 | 李重仪 单位 | 南开大学教授 研究方向 | 计算机视
Transformer编码器与解码器和神经网络之间的关系 下午2时 2024/12/31 作者 AI探索时代 编码器是神经网络模型的一部分,用于将输入数据映射到更紧凑的特征空间。它们通常是任务驱动的模块,由多个神经网络组件组成。
OpenAI o1如何炼成?原理逆向工程图解 下午2时 2024/12/21 作者 机器学习算法与自然语言处理 MLNLP 社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企
让多视角图像生成更轻松!北航和VAST推出MV-Adapter 下午2时 2024/12/18 作者 机器之心 AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000