Transformer模型归档 - 第2页共3页

DeepLearning AI 吴恩达这门课程《Transformer 大语言模型的工作原理》

上午8时 2025/02/17 作者 NLP工程化

这门课程用新手能理解的话术讲解大模型关键概念和信息，适合新手入门。

下午4时 2025/02/11 作者量子位

开源推理大模型新架构Huginn采用了不同于Deepseek-R1/OpenAI o1的方法，直接在高维潜空间中用隐藏状态进行推理。该模型在处理数学问题时能快速收敛到正确答案，并通过观察其推理轨迹发现了复杂的现象，如对关键数字形成圆形轨道等。

下午12时 2025/01/29 作者新智元

新智元报道
编辑：桃子好困
【新智元导读】
DeeSeek R1横空出世撼动了整个硅谷，这波AI恐

下午2时 2025/01/09 作者智能涌现

DeepSeek通过吸引年轻应届毕业生和实习生，采用扁平化管理方式，不设立硬性KPI，追求技术创新。团队规模控制在150人左右，注重培养和发展年轻天才的研发能力。

下午4时 2025/01/08 作者 HyperAI超神经

2024 Meet AI Compiler 第 6 期技术沙龙在上海成功举办，涵盖编译器架构设计、性能优化策略等内容。来自地平线、智源研究院、字节跳动等专家分享最新研究成果，并与观众深入讨论计算-网络-软件-生态协同发展的主题。

下午11时 2024/12/30 作者极市干货

↑ 点击
蓝字
关注极市平台
作者丨科技猛兽
编辑丨极市平台
极市导读
4-bit 量化 LLaMA

下午4时 2024/12/04 作者机器之心

机器之心报道
编辑：Panda
几个小时前，著名 AI 研究者、OpenAI 创始成员之一 Andr

下午10时 2024/11/27 作者极市干货

本文介绍了一种名为MemoryFormer的新型Transformer模型，通过使用存储空间替代传统全连接层来降低推理时计算复杂度。MemoryFormer利用哈希算法和局部敏感哈希索引方法，在保持性能的同时大幅减少了模型的计算量，为大模型高效推理提供了新解决方案。

下午1时 2024/11/27 作者机器之心

机器之心报道
编辑：蛋酱
一个有效的复杂系统总是从一个有效的简单系统演化而来的。——John Gal

下午12时 2024/11/26 作者机器之心

机器之心原创
编辑：张倩、Panda
自回归
方法，在图像生成中观察到了 Scaling Law。