跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

Hopper GPU

MagiAttention:为超长文本和异构数据训练提供线性可扩展的分布式注意力机制

上午8时 2025/04/24 作者 NLP工程化

MagiAttention 提供线性可扩展的分布式注意力机制,支持多种注意力掩码类型,性能与Flash-Attention 3相当,实现零冗余通信提升效率。

分类 开源 标签 Flash-Attention 3、 Hopper GPU、 MagiAttention、 分布式训练效率、 多种注意力掩码类型、 零冗余通信 发表评论

DeepSeek开源周[1]:FlashMLA,Hopper GPU推理性能狂飙

下午2时 2025/02/26 作者 子非AI

DeepSeek AI 团队发布了 FlashMLA,针对 Hopper GPU 优化的 MLA 解码内核,支持 BF16 和分页 KV 缓存,实现高达 3000 GB/s 内存带宽和 580 TFLOPS 计算性能。

分类 分享 标签 BF16、 CUTLASS、 DeepSeek AI、 FlashMLA、 Hopper GPU、 分页 KV 缓存 发表评论

FlashMLA,这是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核

上午8时 2025/02/26 作者 NLP工程化

FlashMLA是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核,已在多个配置下实现高吞吐量和峰值性能。

分类 开源 标签 3000GB/s、 580 TFLOPS、 CUDA 12.6、 DeepSeek、 FlashMLA、 Hopper GPU 发表评论

DeepSeek开源周第二天:DeepEP通信库,解锁MoE模型通信瓶颈

下午4时 2025/02/25 作者 Founder Park

)和专家并行(EP)打造的高效通信库 — DeepEP。
就在半小时前,官方对此进行了发布,以下是由

分类 资讯 标签 CUDA API、 DeepEP、 Hopper GPU、 InfiniBand、 NVSHMEM、 RDMA 发表评论

DeepSeek开源周Day 2: DeepEP——解锁MoE模型通信瓶颈

下午2时 2025/02/25 作者 硅星GenAI

DeepEP是针对Hopper GPU优化的MoE模型训练与推理高效通信库,支持FP8和低延迟推理解码,通过NVLink和RDMA提升效率。

分类 分享 标签 DeepEP、 DeepSeek、 Hopper GPU、 MoE模型、 赛科传媒、 通信瓶颈 发表评论

DeepSeek开源周首发,H800算力狂飙,网友:提升GPU效率可以,别毁了我的Nvidia股票!

下午7时 2025/02/24 作者 AI进修生

DeepSeek开源周启动,FlashMLA项目因高效MLA解码内核受到关注。此项目优化了可变长度序列处理,并显著降低了GPU内存使用和计算成本。

分类 分享 标签 DeepSeek、 FlashMLA、 Hopper GPU、 MLA、 NVIDIA、 Transformer模型 发表评论

DeepSeek“开源周”Day1:让英伟达H800性能翻两倍

下午7时 2025/02/24 作者 AI先锋官

DeepSeek开源FlashMLA项目,显著提高H800 GPU内存访问性能。该优化方案对国产GPU也有潜在提升效应。

分类 资讯 标签 DeepSeek、 FlashMLA、 H800、 Hopper GPU、 MLA架构、 郑纬民 发表评论

一文看懂 DeepSeek 刚刚开源的 FlashMLA,这些细节值得注意

下午4时 2025/02/24 作者 APPSO

今天正式推出DeepSeek开源周,FlashMLA在极短时间内收获超过3.5K Star。它是针对HopperGPU优化的高效MLA解码内核,支持变长序列处理。FlashMLA通过优化减轻了内存占用并加速计算过程。

分类 资讯 标签 CUDA、 DeepSeek、 FlashMLA、 Hopper GPU、 LLM、 MLA 发表评论

刚刚,DeepSeek开源FlashMLA,推理加速核心技术,Star量飞涨中

下午12时 2025/02/24 作者 机器之心

DeepSeek开源FlashMLA项目,用于Hopper GPU的高效型MLA解码核。该项目上线45分钟即收获超过400星,并在内存绑定配置下实现高达3000GB/s的速度和580TFLOPS的计算上限。

分类 学术、 资讯 标签 400 Star、 DeepSeek、 FlashMLA 源代码、 Hopper GPU、 MLA 解码核、 用户关注 发表评论

马斯克开挂,xAI再融资60亿!英伟达AMD都出手,400亿估值起飞

下午2时 2024/12/25 作者 新智元

马斯克的xAI完成60亿美金C轮融资,估值达400亿美元。投资阵容豪华,包括英伟达、AMD等公司参与。资金将用于加速先进基础设施和突破性产品的交付。

分类 资讯 标签 GPU集群、 Hopper GPU、 xAI、 英伟达、 超算、 马斯克 发表评论

2025年 AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Manus Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克

近期文章

  • 从打分器到思考者:RM-R1用推理重塑模型价值判断
  • SSM+扩散模型,竟造出一种全新的「视频世界模型」
  • 250美元起售,还开源,Hugging Face 发布史上最亲民人形机器人
  • 一周两破18年数学纪录!陶哲轩惊叹:AlphaEvolve带来久违「加速度」
  • 大模型推理的“左右脑”革命!华为盘古Embedded凭昇腾之力,让快慢思考合二为一

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
2025 年 6 月
一 二 三 四 五 六 日
 1
2345678
9101112131415
16171819202122
23242526272829
30  
« 5 月    

归档

  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×