图解DeepSeek V3 biased_grouped_topk cuda融合算子fused_moe_gate kernel 2025-04-14 作者 GiantPandaCV thub.com/sgl-project/sglang/blob/main/python/sglan
全球首个AI CUDA工程师来了!将PyTorch原生实现提速10-100倍 2025-02-21 作者 机器之心 只用了 20 瓦的能量就能完成复杂思考,而现代 AI 系统却需要成排的高功率 GPU 和惊人的电力消