一篇针对AMD MI300x的FP8 GEMM(矩阵乘法)做性能优化的文章 上午8时 2025/06/06 作者 NLP工程化 文章介绍了使用LDS和MFMA优化矩阵计算的解决方案及其关键性能提升策略和技术,如LDS瓦片大小、块大小及双缓冲等。