Transformer归档 - 第6页共8页 - 每时AI

怎么学习设计和训练一个大模型——也就是神经网络？

下午2时 2025/01/13 作者 AI探索时代

设计大模型需要先从技术点切入。建议初学者选择合适的工具（如PyTorch框架）和理论（如Transformer架构），专注于学习一种技术方向，并逐步理解其核心思想。

AAAI 2025 川大提出首个基于介观表征的图像篡改检测新范式，定义IML任务SOTA新高度

下午11时 2025/01/10 作者 PaperWeekly

Mesorch 模型首次提出从介观表征的角度融合非语义信息和语义信息，构建并行多尺度 CNN 与 Transformer 网络混合架构来提高图像篡改检测性能。

什么是神经网络？神经网络开发框架——PyTorch和架构Transformer的区别和联系

下午2时 2025/01/10 作者 AI探索时代

在文章中提到，通过PyTorch框架可以实现神经网络模型，并且PyTorch作为科学计算框架，主要用于进行数学运算。同时，文章也强调了Transformer架构的重要性及其与PyTorch的关系。总的来说，它说明了如何借助工具（如PyTorch）来构建和运行神经网络，并依靠理论（如Transformer）来指导其有效运作。

DeepSeek 的秘方是硅谷味儿的

下午4时 2025/01/08 作者硅星人Pro

年度盘点第二弹：关于DeepSeek。
DeepSeek 不是“中国式创新” 的产物
中国杭州的人工

图解Megatron TP中的计算通信overlap

下午11时 2025/01/06 作者极市干货

↑ 点击
蓝字
关注极市平台
作者丨猛猿
来源丨大猿搬砖简记
编辑丨极市平台
极市导读
本文探讨了M

ViT作者飞机上也要读的改进版Transformer论文，花2个小时详细批注解读分享出来

下午4时 2024/12/31 作者量子位

Lucas Beyer分析了微软提出的DiffTransformer论文，指出其通过两个注意力头的差值来改善Transformer模型信噪比的问题。尽管存在一些质疑，Beyer认为该方法具有简单而有效的创新点，并强调需要更多图表和实验结果以验证其潜力。

Transformer编码器与解码器和神经网络之间的关系

下午2时 2024/12/31 作者 AI探索时代

编码器是神经网络模型的一部分，用于将输入数据映射到更紧凑的特征空间。它们通常是任务驱动的模块，由多个神经网络组件组成。

低精度只适用于未充分训练的LLM？腾讯提出LLM量化的Scaling Laws

下午11时 2024/12/30 作者 PaperWeekly

即插即用举例
本文来自
腾讯 AI Lab，介绍了
一套针对于低比特量化的 Scaling Laws

大模型Transformer架构之编码器(Encoder)和解码器(Decoder)

下午2时 2024/12/30 作者 AI探索时代

Transformer的编码器负责将人类可识别的数据转换为大模型可以处理的形式，并进行特征提取；解码器则用于重建模式，生成新的数据。其架构包括自注意力机制等多重数据处理步骤。