注意力机制归档 - 第4页共5页

OpenAI o1如何炼成？原理逆向工程图解

MLNLP
社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企

2024年12月18日14时作者机器之心

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000

2024年12月13日12时作者新智元

新智元报道
编辑：LRS
【新智元导读】
Transformer模型自2017年问世以来，已成为AI

2024年12月12日8时作者极市干货

↑ 点击
蓝字
关注极市平台
作者丨Xin He等
来源丨自动驾驶之心
编辑丨极市平台
极市导读
本

2024年12月11日14时作者新智元

新智元报道
编辑：编辑部 HYZj
【新智元导读】
NeurIPS 2024最佳论文终于正式揭晓了！

2024年12月10日8时作者 PaperWeekly

©作者 |
刘博
单位 |
新加坡国立大学
来源 |
机器之心
本论文由伦敦大学学院、上海交通大学、

2024年12月5日11时作者新智元

BitNet系列原班人马推出新一代架构BitNet a4.8，采用两阶段权重衰减和学习率调度。实验对比显示其在语言模型困惑度和任务准确性方面与LLaMA相当，并且平均精度几乎没有损失。

2024年12月4日16时作者量子位

2014年来自Karpathy与Dzmitry Bahdanau的实习生提出的简化注意力机制在机器翻译项目中诞生，后来被应用于Transformer模型。

2024年12月4日16时作者机器之心

机器之心报道
编辑：Panda
几个小时前，著名 AI 研究者、OpenAI 创始成员之一 Andr