FP8模型不再挑卡!DeepSeek推理成本减半速度翻番,清华团队开源「赤兔」推理引擎 下午12时 2025/03/14 作者 机器之心 清华系科创企业清程极智联合清华大学团队开源大模型推理引擎”赤兔”,支持非H卡设备运行原生FP8模型,相比vLLM方案,使用GPU数量减少50%,输出速度提升3.15倍。