飞桨框架3.0正式发布,DeepSeek-R1满血版实现单机部署,吞吐提升144%!


2025年4月1日,百度飞桨(PaddlePaddle)框架3.0正式版发布。


飞桨框架3.0全新发布 “自动并行训练、编译优化、推理加速、科学计算支持、国产硬件适配” 是这次的核心升级方向,为开发者提供了高性能、低成本的开发工具。干货满满!



飞桨框架3.0在性能层面实现了全方位突破,成为大模型开发、部署的效率标杆。


训练端,动静结合自动并行技术大幅简化分布式策略开发,Llama2-13B训练性能达2055.8 tokens/秒,较竞品提升28.3%,代码量减少96%;神经网络编译器CINN通过一阶段编译与智能算子融合,使RMSNorm等关键算子速度提升4倍,PaddleX系列模型平均性能提升27.4%。


推理端,依托FP8/4bit量化与硬件指令级优化,DeepSeek R1单机吞吐突破2000+ tokens/秒,MTP投机解码技术提升吞吐144%;长序列首token生成速度优化37%,资源消耗降低50%。




4比特量化单机高速推理部署方案


飞桨框架3.0在量化推理领域实现重大突破,全面支持Weight Only INT8/INT4量化技术,为不同硬件环境提供灵活高效的部署选择。



  • Hopper架构适配:支持DeepSeek V3/R1满血版及蒸馏版模型的FP8推理,充分释放Hopper GPU的TensorCore潜力。


  • A800高性能部署:通过Weight Only INT8量化技术,在A800 GPU上实现高精度、低时延推理,兼顾性能和能效。


  • 单机极简部署:基于Weight Only INT4量化方案,飞桨框架3.0首次支持大模型单机无损压缩部署,彻底消除跨机通信开销。实测相比传统2机部署方案,单机部署在相同并发量下推理速度提升101%~128%,为中小规模场景提供“零通信损耗、极致性价比”的落地范式。



长序列注意力量化加速

—–突破大模型推理效率边界


针对长序列输入场景下注意力(Attention)计算复杂度与序列长度平方成正比的性能瓶颈,飞桨框架3.0创新推出SageAttention动态量化加速方案,在Hopper架构GPU上实现精度与效率的完美平衡。


以DeepSeek模型(Head Dim=192)为例,该方案通过以下技术路径显著优化长序列推理性能:




1、动态混合精度量化:


  • Q/K矩阵INT8量化:将Query和Key矩阵动态量化为INT8,减少矩阵乘法的计算与访存开销。


  • V矩阵FP8量化:保留Value矩阵的FP8精度,兼顾数值稳定性与计算效率。


2、分层计算优化:


  • Softmax阶段加速:将INT32格式的Q*K中间结果转换为FP32进行反量化,结合在线式(Online)Softmax计算,避免显存峰值压力。


  • 结果矩阵融合:将Softmax输出P量化为FP8,与FP8量化的V矩阵相乘后,仅需一次反量化即可获得最终Attention结果O,最大限度降低计算冗余。



3、端到端性能跃升:


上述两次量化-反量化过程在严格精度控制下,将64K长文本输入的首token推理速度提升37.4%,且模型效果损失可忽略不计(精度保留率超99.5%)。



MTP高效推理

—–突破大批次解码性能瓶颈


投机解码通过“以小搏大”策略优化大模型推理效率,以极低额外时延生成多个Draft Token,通过基础模型快速验证其合理性,从而减少整体推理耗时。其核心价值在于平衡QPS与延迟,尤其适用于高并发、低时延要求的场景,如实时对话、搜索推荐。



飞桨框架3.0针对类Draft Model系列方法(如MTP、Eagle)设计了灵活可扩展的解码架构。


1、解耦设计:


分离基础模型与投机解码策略,支持通过少量代码适配新方法,模型结构与常规Transformer一致(含Embedding/LM Head、CacheKV等模块)。


2、统一处理逻辑:


  • 多状态支持:单次前向传播(Forward)即可处理全部Draft Token的接受状态(全部拒绝、部分接受、全部接受)


  • 后处理加速:融合模型状态更新算子,性能较传统方案提升2-4倍。


以下是 MTP 推理时的时序图:


一键启动推理服务


飞桨官方提供了一键启动脚本,能让大家快速启动DeepSeek并进行推理请求。


单机WINT4推理


以1台H800为例,部署单机4比特量化推理服务。


  • 设置变量model_name声明需要下载的模型。


  • 设置模型存储路径MODEL_PATH,默认挂载至容器内/models路径下


export MODEL_PATH=${MODEL_PATH:-$PWD}export model_name="deepseek-ai/DeepSeek-R1/weight_only_int4"docker run \  --gpus all \  --shm-size 32G \  --network=host \  --privileged \  --cap-add=SYS_PTRACE \  -v $MODEL_PATH:/models \  -e "model_name=${model_name}" \  -e "MP_NUM=8" \  -e "CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7" \  -dit \  ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda124-cudnn9-v2.1 \  /bin/bash -c -ex 'start_server $model_name && tail -f /dev/null'&& docker logs -f $(docker ps -lq)


两机推理


# 第一个节点(master)ping 192.168.0.1# 第二个节点(slave)ping 192.168.0.2


在2个节点上分别执行下列以下命令,一键启动多机推理镜像。

export MODEL_PATH=${MODEL_PATH:-$PWD}export model_name="deepseek-ai/DeepSeek-R1-2nodes/weight_only_int8"  #可更换FP8模型export MP_NNODE=${MP_NNODE:-2}export MP_NUM=${MP_NUM:-16}export POD_0_IP=${POD_0_IP:-"192.168.0.1"}export POD_IPS=${POD_IPS:-"192.168.0.1,192.168.0.2"}export BATCH_SIZE=${BATCH_SIZE:-128}export BLOCK_BS=${BLOCK_BS:-40}
docker run \  --gpus all \  --shm-size 32G \  --network=host \  --privileged \  --cap-add=SYS_PTRACE \  -v $MODEL_PATH:/models \  -e "model_name=${model_name}" \  -e "MP_NUM=${MP_NUM}" \  -e "MP_NNODE=${MP_NNODE}" \  -e "CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7" \  -e "POD_0_IP=${POD_0_IP}" \  -e "POD_IPS=${POD_IPS}" \  -e "BATCH_SIZE=${BATCH_SIZE}" \  -e "BLOCK_BS=${BLOCK_BS}" \  -dit \  ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda124-cudnn9-v2.1 \  /bin/bash -c -ex 'start_server $model_name && tail -f /dev/null'&& docker logs -f $(docker ps -lq)


curl请求示例


curl ${ip}:9965/v1/chat/completions \  -H 'Content-Type: application/json' \  -d '{      "model":"default",      "text":"Hello, how are you?"  }'


OpenAI  SDK请求示例


import openaiclient = openai.Client(base_url=f"http://127.0.0.1:9965/v1/chat/completions", api_key="EMPTY_API_KEY")# 非流式返回response = client.completions.create(    model="default",    prompt="Hello, how are you?",  max_tokens=50,  stream=False,)print(response)print("\n")
# 流式返回response = client.completions.create(    model="default",    prompt="Hello, how are you?",  max_tokens=100,  stream=True,)for chunk in response:  if chunk.choices[0is not None:    print(chunk.choices[0].text, end='')print("\n")


结语


从 2016 年开源到 2025 年飞桨框架3.0发布,飞桨不仅实现了从训练框架到 AI 基础设施的进化,更是构建起覆盖 1808 万开发者、43 万家企业的产业生态,推动大模型技术从实验室走向千行百业。


当 AI 开发进入 “大模型 + 全场景” 时代,飞桨框架 3.0 以技术创新与生态协同双轮驱动,正在重新定义大模型研发的效率标杆,为智能经济发展奠定坚实的技术底座。


“一次开发,多端部署” 是飞桨的核心理念,飞桨正成为连接技术创新与产业落地的智能桥梁,引领AI基础设施进入普惠化、标准化的新阶段。


相信飞桨作为国产AI之光肯定会做得越来越好。


(文:开源AI项目落地)

欢迎分享

发表评论