跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

MLA

手撕大模型Attention:MLA、MHA、MQA与GQA(含实现代码)

2025年5月20日19时 作者 Datawhale

多头注意力机制(Multi-Head Attention,MHA)
多头注意力(Multi-Hea

分类 分享 标签 GQA、 MHA、 MLA、 MQA、 性能、 计算复杂度 发表评论

把MLA和稀疏激活带到端侧!港科大广州和伦敦大学学院团队联合发布软硬协同设计的边缘语言模型PLM

2025年3月27日16时 作者 机器之心

)AI 中心汪军教授,香港科技大学(广州)信息枢纽院长陈雷教授联合指导。第一作者邓程是香港科技大学(

分类 学术、 资讯 标签 MLA、 ReLU²、 稀疏化、 缓存使用、 计算复杂度、 边缘设备 发表评论

DeepSeek开源周首发,H800算力狂飙,网友:提升GPU效率可以,别毁了我的Nvidia股票!

2025年2月24日19时 作者 AI进修生

DeepSeek开源周启动,FlashMLA项目因高效MLA解码内核受到关注。此项目优化了可变长度序列处理,并显著降低了GPU内存使用和计算成本。

分类 分享 标签 DeepSeek、 FlashMLA、 Hopper GPU、 MLA、 NVIDIA、 Transformer模型 发表评论

一文看懂 DeepSeek 刚刚开源的 FlashMLA,这些细节值得注意

2025年2月24日16时 作者 APPSO

今天正式推出DeepSeek开源周,FlashMLA在极短时间内收获超过3.5K Star。它是针对HopperGPU优化的高效MLA解码内核,支持变长序列处理。FlashMLA通过优化减轻了内存占用并加速计算过程。

分类 资讯 标签 CUDA、 DeepSeek、 FlashMLA、 Hopper GPU、 LLM、 MLA 发表评论

大模型开源及RAG用于综述写作进展:兼看mobile agent在应用场景选择上一些思考

2025年2月24日14时 作者 老刘说NLP

今天是2025年02月24日,星期一。文章讨论了mobile agent的思考和开源进展,包括MoE小模型Moonlight-16B-A3B、Qwen2.5-VL及deepseek开源周day1开源FlashMLA等项目。此外还介绍了RAG在写作场景中的应用进展。

分类 大模型 标签 FlashMLA、 MLA、 Qwen2.5-VL、 SurveyX、 多模态、 老刘 发表评论

DeepSeek开源放大招:FlashMLA让H800算力狂飙!曝光低成本秘笈

2025年2月24日12时 作者 新智元

DeepSeek发布FlashMLA开源库,支持英伟达Hopper GPU。FlashMLA针对变长序列进行优化,显著提高推理速度和性能。

分类 资讯 标签 580TFLOPS、 FlashMLA、 HopperGPU、 MLA、 MoE、 优化效果 发表评论

SGLang DP MLA 特性解读

2025年2月14日14时 作者 GiantPandaCV

lgorithm-in-cuda 。
这里简要解析了一下SGLang v0.4版本中针对DeepSe

分类 学术 标签 DeepSeek、 Mixed-Length Attention、 MLA、 SGLang、 多节点、 数据并行 发表评论

李建忠:DeepSeek 关键技术创新及对 AI 生态的影响

2025年2月6日16时 作者 AI科技大本营

【导读】
全球 AI 竞赛正酣,DeepSeek 的出现,宛如一石激水,打破了原有的平静。作为资深技

分类 分享 标签 DeepSeek、 MIT许可、 MLA、 MoE、 后训练强化学习、 经典Transformer 发表评论

DeepSeek 惊艳背后的架构创新

2025年1月23日22时 作者 子非AI

DeepSeek v3 震撼发布,仅用十分之一计算量就达到比肩 Llama 3 405B 的性能!其

分类 分享 标签 DeepSeek V3、 MLA、 MoE改进、 动态路由、 多令牌预测机制、 混合模型架构 发表评论

DeepSeek-V3发布:开源最强MoE,性能比肩GPT-4o,速度提升3倍!

2024年12月27日14时 作者 子非AI

【点击此处,订阅“AI行业趋势”合集】
,为您揭示人工智能领域的最新动态与未来走向。无论您是AI从业

分类 分享 标签 DeepSeek-V3、 MLA、 NLP、 代码生成、 数学推理、 知识蒸馏 发表评论

AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub Google GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 工业机器人 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
  • 万亿参数模型Kimi-K2部署、微调需要多大配置及4个代表性的大模型训练框架
  • 中国玩家全栈突破!全光互联Scale Out让AI进入“光速时代”
  • 与数字幽魂的爱情
  • 高盛将迎数百名“AI工程师”上岗
  • 刚刚,斯坦福宣布发起首个AI 主导学术会议

2025 年 7 月
一 二 三 四 五 六 日
 123456
78910111213
14151617181920
21222324252627
28293031  
« 6 月    

归档

  • 2025 年 7 月
  • 2025 年 6 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×