A White Paper on Neural Network Deployment
  • ❤️‍🔥A White Paper on Neural Network Deployment
    • ❤️‍🔥A White Paper on Neural Network Deployment
    • 🤠CUDA
      • 🤑CPU|GPU程序执行流程
      • 🤗QiuckLearnFromPicture
      • 🤒GPU编程模型
      • 🫣线程束和线程束分化|Warp
      • 🤭Reduction|并行规约
      • 🤔全局内存(Global Memory)访问模式
      • 🫢Share Memory|共享内存|Bank Conflicts
      • 😷CUDA流和事件
      • 🫡Nsight system和Nsight compute
      • 🤫Grid-Stride Loops
    • 😄ONNX
      • 😉ONNX中的各类Proto
      • 🤔onnx->torch
      • 🥳0x00自定义算子
      • 😕0x01自定义算子
      • 🥴ONNX 模型的修改与调试
      • 😆ONNX中的一些概念
      • 😍用python操作ONNX
      • 🥹ONNX中的广播机制
      • 🤣外部数据
      • 🥰ONNX Model hub
      • 😘ONNX IR(Intermediate Representation)
      • 🥳ONNX后端
      • 🥸概述
    • 🐶TensorRT
      • 🐱TensorRT快速入门指南
      • 🐭文档简介
      • 🐹TensorRT的功能
      • 🐰TensorRT的C++接口解析
      • 🦊TensorRT的Python接口解析
      • 🐻TensorRT如何工作
      • 🐼trtexec的使用
      • 🐻‍❄️实战:解析onnx模型保存为engine文件|from scratch
      • 🐨实战:加载engine文件并执行推理|from scratch
      • 🐯手撕TensoRT源码|0x00
    • 🫶模型量化和剪枝
      • 🖕IEEE754标准
      • 🫰浮点运算产生的误差
      • 🤲映射和偏移
      • 🫴quantization from scratch|python
      • 👏动态量化范围
      • 🤝量化粒度
      • 👍校准
      • 👊Post-Training Quantization
      • ✊Quantization-Aware Training
      • 🤞pytorch-quantization使用文档
      • ✌️Polygraphy-Cheatsheet
    • 🤺杂文不杂
      • 😾Roofline_model
      • 🤖模型部署的几大误区
      • 😽手算Ampere架构各个精度的Throughout
      • 😻Tensor Core VS CUDA Core
      • 😺PNNX计算图结构剖析
      • 🎃融合BN和Conv层
      • 👾深度神经网络编译器原理简介
      • 👽在WSL2上安装CUDA_cuDNN_TensorRT
    • 🍀CPP
      • 🪵lamda表达式|C++11
      • 🌴智能指针|C++11
      • 🌲右值引用|移动语义|完美转发|C++11
      • 🫑emplace_back 减少内存拷贝和移动|C++11
      • 🥬多线程|互斥锁|条件变量|C++11
      • 🥒异步操作|C++11
      • 🍆原子变量|CAS操作|内存顺序|C++11
      • 🍏对象生存期和资源管理|RAII设计思想
      • 🍎Pimpl设计模式|编译防火墙
      • 🌶️std::variant|C++17
      • 🫛std::any|C++17
    • 🩷部署实战
      • ❤️yolov8Multitask
      • 💚yolov5
      • 🧡pointpillars
      • 💛centerpoint
      • 🩵deepstream
      • 💜BEVfusion
      • 💙BEVLane
      • 🖤Occupancy
    • ☯️重点参考书籍
Powered by GitBook
On this page
  • 近10年模型的变化与硬件的发展
  • 模型量化回顾
  • 什么是量化
  • 量化的意义
  • 量化会出现什么问题
  • 量化的基本原理: 映射和偏移
  • 量化的基本术语
  • 非对称量化
  • 对称量化
  • 对称量化的计算过程
  • 非对称量化的计算过程
  • Reference

Was this helpful?

Edit on GitHub
  1. A White Paper on Neural Network Deployment
  2. 模型量化和剪枝

映射和偏移

Previous浮点运算产生的误差Nextquantization from scratch|python

Last updated 1 year ago

Was this helpful?

近10年模型的变化与硬件的发展

DNN模型的大小,几乎在以每年10倍的FLOPs在增长

相比于模型的发展,硬件的发展速度很慢。即便硬件有了,还需要有相对应的的编译器。有了基本的编译器后,还需要有编译器的优化(TensorRT 3.x-8.x的演变),还需要有一套其他的SDK。 Vision Transformer虽然在2020年左右兴起了,但是真正在硬件上达到如同现在的CNN的优化效果, 可能需要8-10年时间。 所以,大家一般会考虑如果用现有的硬件基础上减少模型计算量、增大模型计算密度等等。所以针对 这些需求,就有了“量化(quantization)”,“剪枝(Prunning)”等这些优化方法。

模型量化回顾

存储FP32需要4个字节,但存储INT8只需要一个字节。因为训练的时候,我们想训练到非常细节的部 分,所以我们使用FP32。但是如果我们在部署的时候只用8个bit就把FP32的数据给表现出来,那么 计算量以及能源消耗不就更好?模型量化就是做这个的。

什么是量化

模型量化是通过减少模型中计算精度从而减少模型计算所需要的访存量,进而 进一步提高计算密度的一种方法。计算精度可以分为FP32, FP16, FP8, INT8, INT32, TF32这些

量化针对的是

  • activation value

  • weight

所以一般来说我们会对conv或者linear这些计算密集型算子进行量化

量化的意义

在深度学习中,量化有以下优势:

  • 减小内存占用

  • 加速计算

  • 减小功耗和延迟

量化是模型部署中的一种重要的优化方法,可以在部分精度损失的前提下,大幅提高神经网络的效率和性能。

我们平时训练出的模型如YOLOv5、ResNet50正常导出默认都是FP32的精度,现在我们来看下ResNet50导出的ONNX模型的输入、权重、偏置以及输出的数据类型,ResNet50导出至ONNX的代码如下:

import torch
import torchvision.models as models

model = models.resnet50(pretrained=True)

input = torch.randn(1, 3, 224, 224)
torch.onnx.export(model, input, "resnet50-1.onnx")

使用netron进行查看

FP32->FP16几乎是无损的(CUDA中使用float2half直接进行转换),不需要calibrator去校正、更不需要retrain。而且FP16的精度下降对于大部分任务影响不是很大,甚至有些任务会提升。NVIDIA对于FP16有专门的Tensor Cores可以进行矩阵运算,相比FP32来说吞吐量直接提升一倍,提速效果明显!

实际点来说,量化就是将我们训练好的模型,不论是权重、还是计算op,都转换为低精度去计算。因为FP16的量化很简单,所以实际中我们谈论的量化更多的是INT8的量化,当然也有3-bit、4-bit的量化,不过目前来说比较常见比较实用的,也就是INT8量化了。

量化会出现什么问题

fp32某个区间内的数值等于量化后int8上的一个点

仅仅用256种数据去表现FP32的所有可能出现的 数据,有可能会造成表现力下降。如果能够比较 完美的用这256个数据去最大限度的表现FP32的 原始数据分布,是量化的一个很大挑战。 换句话说,就是如何合理的设计这个dynamic range是量化的重点。

量化的基本原理: 映射和偏移

example🌰🌰🌰

R:{x∣x∈[−100,0]x∈Z}Q:{y∣y∈[0,20],y∈Z}R{:}\{x|x\in[-100,0]x\in Z\}\\Q{:}\{y|y\in[0,20],y\in Z\}R:{x∣x∈[−100,0]x∈Z}Q:{y∣y∈[0,20],y∈Z}

倘若想把R中的数据用Q来表示,如何做?

方法一(非对称量化):

根据R和Q中x和y可以取的最大值和最小值,计算得到一个缩放比(ratio)

ratio=(Rmax−Rmin)(Qmax−Qmin)ratio=\frac{(R_{max}-R_{min})}{(Q_{max}-Q_{min})}ratio=(Qmax​−Qmin​)(Rmax​−Rmin​)​

以及缩放后的A要在B的范围中显示,所需要的偏移量(distance)

distance=Qmin−Rminratiodistance=Q_{min}-\frac{R_{min}}{ratio}distance=Qmin​−ratioRmin​​

最终,通过ratio和distance的到x和y的关系

y=xratio+distancey=\frac{x}{ratio}+distancey=ratiox​+distance

利用上面的公式求得:

ratio=(Rmax−Rmin)(Qmax−Qmin)=10020=5distance=0−−1005=20\begin{aligned} &ratio=\frac{(R_{max}-R_{min})}{(Q_{max}-Q_{min})}=\frac{100}{20}=5 \\ &distance=0-\frac{-100}{5}=20 \end{aligned}​ratio=(Qmax​−Qmin​)(Rmax​−Rmin​)​=20100​=5distance=0−5−100​=20​

通过ratio和distance我们可以这么理解: Q中每一个元素可以代表R中每5个元素,并且偏移量是20。但是存在一个问题:

如果说可以通过下面的公式将R中的数据映射到Q中的话,

y=xratio+distancey=\frac{x}{ratio}+distancey=ratiox​+distance

那么我们按照下面的公式反着计算的话,是不是就可以通过Q中的数据得到R呢?

x=(y−distance)∗ratiox=(y-distance)*ratiox=(y−distance)∗ratio
y = 0, x = -100
y = 1, x = -95
y = 2, x = -90
y = 3, x = -85
y = 4, x = -80

相比于原本的101个R中的数据,如今我们只能够得到R中21个数据。 比如说-96, -93, -81是无法得到的 ,那么问题出现在哪里?以及如何解决呢?

看看下面分布不同的四个数据

R ⁣:{x∣x∈[−100,0]x∈Z}Q ⁣:{y∣y∈[0,20],y∈Z}R\colon\{x|x\in[-100,0]x\in Z\}\\Q\colon\{y|y\in[0,20],y\in Z\}R:{x∣x∈[−100,0]x∈Z}Q:{y∣y∈[0,20],y∈Z}

很明显,虽然上述的4个example中数据都呈现-100~0中,但是由于数据的分布形式不同,如 果我们统一都用一种ratio和distance的话,会有很大的误差。

  • example1

R中的数据服从均匀分布,随机出现在 -100到0中。 这个时候因为数据分布是均匀,所以 将-100~0均分20个部分映射到Q中效果是比较好的,误差也会比较小

  • example2

R中的数据呈现高斯分布,主要集中 在-80~-20中 这个时候R中的数据分布是属于正态 分布,所以数据主要集中在靠拢中间 的部分,靠近边缘的数据出现的概率 比较低。如果依然等分为20个部分的 话,靠近中间的数据会出现较大的误 差。

  • example3

R中的数据呈现高斯分布,主要集中 在-65~-45中 这个时候R中的数据分布是属于正态 分布,所以数据主要集中在靠拢中间 的部分。但是由于方差比较大,所以 接近两侧的数据几乎没有。如果按照 左图分配的话,Q中0-5, 15-20所代 表的数字没有意义。

  • example4

R中的数据呈现高斯分布,主要集中 在-30~-15中 这个时候R中的数据分布是属于正态 分布,所以数据主要集中在靠拢中间 的部分。但是由于方差比较大,以及 均值有所偏移,所以R中-100~-30这 段区域几乎没有。将这段区域映射到 Q是没有意义的。

所以,为了能够让R到Q的映射合理,以及将Q中的数据还原为R时误差能够控制到最小,我们需 要根据R中的数据分布合理的设计这个ratio和distance。量化是一个数值映射过程:[r0, r1, …,rk] -> [q0, q1, …, qk] ,对于线性映射,并没有考虑原始数据本身的分布,如下图的正态分布,越靠近中间的 0,数据分布越密,左边是线性映射,量化后数值也同样会集中在中间的 0 附近,如果更极端一点,会导致大量的数值量化后都是 0, 显然这样就降低了量化的精度,而如果按右图,对数据分布密集的区域,给与更多的量化映射,就能增加量化后的差异性,提高精度。实际上,我们希望量化后的数据在量化空间应该均匀分布,而不是被原始数据的分布所影响。

非线性映射有多种实现,这里介绍一种分位量化方法(Quantile Quantization):分位量化的基本想法是寻找一些分位点对原数据进行划分,使得各个区间的数据个数相等,然后将同一个区间的数据映射到同一个值,从而实现了量化。

如上图左边是一个类似于标准正态的分布图,红色竖线是16等分的分隔线,即相邻的分隔线截取的曲线面积相等,这样我们再把区间中的数都用区间中点来映射,即完成了分位量化,那如何求这些分隔线的位置呢?可以用累积分布函数的反函数来计算,如上图右图,累计分布函数(CDF)可以看作是左图积分图,我们把纵坐标进行16等分,那么等分线与CDF曲线的交点对应的横坐标即为分位点,我们用 Qx 表示CDF函数的反函数,qi 表示各个区间的中点,Qmap 是所有 qi 的集合,Qmap = [q0, q1, … q2^k-1],则有:

qi=12(QX(i2k+1)+QX(i+12k+1))q_i=\frac{1}{2}\left(Q_X\left(\frac{i}{2^k+1}\right)+Q_X\left(\frac{i+1}{2^k+1}\right)\right)qi​=21​(QX​(2k+1i​)+QX​(2k+1i+1​))

实际计算过程中,需要先将数据归一化到合适的范围,并且对于确定的分布来说,分位点也是确定的,因此只需存储分位点的索引即可,整体步骤如下:

  • 计算归一化常数 N=max(|T|) ,将输入张量T转化到目标量化数据类型的范围内

  • Qmap 是 qi 的集合,对于T/N的每个元素,搜索在 Qmap 中最接近的对应值qi

  • 将对应 qi 的索引 i 作为量化输出结果

量化的基本术语

目前为止我们所做的事情其实就是所谓的量化,我们稍微把一些概念和术语给整理一下

  • R是一组FP32的数据,能够表现的数据种类有很多,大约是2322^{32}232种(4亿),

  • 范围是: −1.2∗10−38−3.4∗1038−1.2 ∗ 10^{−38}-3.4 ∗ 10^{38} −1.2∗10−38−3.4∗1038

  • Q是一组INT8的数据,只能够表现282^828种数据(256)。

  • 范围是:−128−127或0−255-128 -127 或 0 -255−128−127或0−255

  • R到Q的映射的缩放因子scale的计算公式为:

ratio=(Rmax−Rmin)(Qmax−Qmin)ratio=\frac{(R_{max}-R_{min})}{(Q_{max}-Q_{min})}ratio=(Qmax​−Qmin​)(Rmax​−Rmin​)​

  • R缩放之后映射到Q时,所需要的偏移量z为:

z=Qmin−Rminratioz=Q_{min}-\frac{R_{min}}{ratio}z=Qmin​−ratioRmin​​
  • 这样R中每一个元素转移到Q的过程称为量化(Quantization),公式是:

Qi=Riscale+zQ_{i}=\frac{R_{i}}{scale}+zQi​=scaleRi​​+z
  • 将Q空间中一个元素转换回R的空间的过程为反量化(Dequantization),公式是:

Ri=(Qi−z)∗scaleR_{i}=(Q_{i}-z)*scaleRi​=(Qi​−z)∗scale
  • 对称映射,非对称映射

如上图,对称映射的 Z 始终为 0, 即原数值的 0 量化后仍然是 0,量化前后的数值都是以 0 为中点对称分布,但实际上有些数值的分布并不是左右对称的,比如 ReLU 激活后都是大于 0,这样会导致量化后 Q 的范围只用到了一半,而非对称映射则解决了这个问题。

非对称映射的 min、max 独立统计,Z 的值根据 R 的分布不同而不同,这样可以使 Q 的范围被充分利用。

我们来看一个实际的例子:量化 FP32 [-1.8, -1.0, 0, 0.5] 到 INT8 [0, 255] (非对称):

非对称量化

将实数x∈Rx\in\mathbb{R}x∈R转换到b−bitb-bitb−bit的有符号整数上,xq∈{−2b−1,−2b−1+1,…,2b−1−1}x_q\in\{-2^{b-1},-2^{b-1}+1,\ldots,2^{b-1}-1\}xq​∈{−2b−1,−2b−1+1,…,2b−1−1}转换方程为f(x)=s⋅x+zf(x)=s\cdot x+zf(x)=s⋅x+z

s=2b−1α−βz=−round⁡(β⋅s)−2b−1s=\frac{2^{b}-1}{\alpha-\beta}\\z=-\operatorname{round}(\beta\cdot s)-2^{b-1}s=α−β2b−1​z=−round(β⋅s)−2b−1

z为zero-point,实数上的0映射到整数上的zero-point,在int8这个案例中,s=255α−βs=\frac{255}{\alpha-\beta}s=α−β255​,z=−round(β⋅s)−128z=-round(\beta\cdot s)-128z=−round(β⋅s)−128。

非对称量化算子的定义如下:

clip⁡(x,l,u){l,x<lx,l≤x≤uu,x>uxq=quantize⁡(x,b,s,z)=clip⁡(round⁡(s⋅x+z),−2b−1,2b−1−1)\operatorname{clip}(x,l,u)\begin{cases}l,&x<l\\x,&l\leq x\leq u\\u,&x>u\end{cases}\\x_{q}=\operatorname{quantize}(x,b,s,z)=\operatorname{clip}(\operatorname{round}(s\cdot x+z),-2^{b-1},2^{b-1}-1)clip(x,l,u)⎩⎨⎧​l,x,u,​x<ll≤x≤ux>u​xq​=quantize(x,b,s,z)=clip(round(s⋅x+z),−2b−1,2b−1−1)

round()代表离得最近的一个整数。

反量化算子的定义如下,输出结果约等于输入值,x^≈x\hat{x}\approx xx^≈x

x^=dequantize(xq,s,z)=1s(xq−z)\hat{x}=\text{dequantize}(x_q,s,z)=\frac{1}{s}(x_q-z)x^=dequantize(xq​,s,z)=s1​(xq​−z)

对称量化

输入范围和整数范围关于0点对称,这就意味着在int8量化中我们使用整数范围[-127, 127],为了对称不使用-128这个数值。扔掉一个数值-128对于int8量化来说影响不大,但是如果是4-bit量化呢,甚至bit数更少,这时我们就要思考是不是应该使用对称量化了。

对称量化的算子如下:

s=2b−1−1αxq=quantize(x,b,s)=clip(round(s⋅x),−2b−1+1,2b−1−1)s=\frac{2^{b-1}-1}{\alpha}\\x_{q}=\mathrm{quantize}(x,b,s)=\mathrm{clip}(\mathrm{round}(s\cdot x),-2^{b-1}+1,2^{b-1}-1)s=α2b−1−1​xq​=quantize(x,b,s)=clip(round(s⋅x),−2b−1+1,2b−1−1)

相应的反量化算子如下:

x^=dequantize(xq,s)=1sxq\hat{x}=\text{dequantize}(x_q,s)=\frac{1}{s}x_qx^=dequantize(xq​,s)=s1​xq​

对称量化的计算过程

考虑一个矩阵乘法Y=XWY=XWY=XW,其中X=(xik)∈Rm×pX=(x_{ik})\in\mathbb{R}^{m\times p}X=(xik​)∈Rm×p是输入的激活函数值,W=(wkj)∈⋅Rp×nW=(w_{kj})\stackrel{\cdot}{\in}\mathbb{R}^{p\times n}W=(wkj​)∈⋅​Rp×n是权重,Y=(yij)∈Rm×nY=(y_{ij})\in\mathbb{R}^{m\times n}Y=(yij​)∈Rm×n是输出值Y=XWY=XWY=XW可以用量化后的张量Xq=(xq,ik)∈Zm×pX_{q}=(x_{q,ik})\in\mathbb{Z}^{m\times p}Xq​=(xq,ik​)∈Zm×p和Wq=(wq,kj)∈Zp^×nW_{q}=(w_{q,kj})\in\mathbb{Z}^{\hat{p}\times n}Wq​=(wq,kj​)∈Zp^​×n近似表示:

yij=∑k=1pxik⋅wkj≈∑k=1pdequantize(xq,ik,sq,ik)⋅dequantize(wq,kj,sw,kj)=∑k=1p1sx,ikxq,ik⋅1sw,kjwq,kjy_{ij}=\sum_{k=1}^px_{ik}\cdot w_{kj}\approx\sum_{k=1}^p\text{dequantize}(x_{q,ik},s_{q,ik})\cdot\text{dequantize}(w_{q,kj},s_{w,kj})=\sum_{k=1}^p\frac{1}{s_{x,ik}}x_{q,ik}\cdot\frac{1}{s_{w,kj}}w_{q,kj}yij​=k=1∑p​xik​⋅wkj​≈k=1∑p​dequantize(xq,ik​,sq,ik​)⋅dequantize(wq,kj​,sw,kj​)=k=1∑p​sx,ik​1​xq,ik​⋅sw,kj​1​wq,kj​

为了使用整数类型的矩阵乘法,我们需要把scale提到求和符号的外面:

1sx,i⋅sw,j∑k=1pxq,ik⋅wq,kj\frac1{s_{x,i}\cdot s_{w,j}}\sum_{k=1}^px_{q,ik}\cdot w_{q,kj}sx,i​⋅sw,j​1​k=1∑p​xq,ik​⋅wq,kj​

整数矩阵乘法需要激活值的量化粒度为per-row或per-tensor,权重的量化粒度为per-column或per-tensor.但是在推理阶段,不同的batch实例会导致不同的行数,所以为了最大化性能激活值应采用per-tensor的量化粒度,权重采用per-tensor或者per-column(per-column对应于卷积核就是per-channel的量化粒度)。

非对称量化的计算过程

yij≈∑k=1p1sx(xq,ik−zx)1sw,j(wq,kj−zw,j)=1sxsw,j(∑k=1pxq,ikwq,kj−∑k=1p(wq,kjzx+xq,ikzw,j)−∑k=1pzxzw,j)\begin{aligned} y_{ij}& \approx\sum_{k=1}^{p}\frac{1}{s_{x}}(x_{q,ik}-z_{x})\frac{1}{s_{w,j}}(w_{q,kj}-z_{w,j}) \\ &=\frac{1}{s_{x}s_{w,j}}\biggl(\sum_{k=1}^{p}x_{q,ik}w_{q,kj}-\sum_{k=1}^{p}\left(w_{q,kj}z_{x}+x_{q,ik}z_{w,j}\right)-\sum_{k=1}^{p}z_{x}z_{w,j}\biggr) \end{aligned}yij​​≈k=1∑p​sx​1​(xq,ik​−zx​)sw,j​1​(wq,kj​−zw,j​)=sx​sw,j​1​(k=1∑p​xq,ik​wq,kj​−k=1∑p​(wq,kj​zx​+xq,ik​zw,j​)−k=1∑p​zx​zw,j​)​

Reference

❤️‍🔥
🫶
🤲
https://www.lesswrong.com/posts/vnvGhfikBbrjZHMuD/predicting-gpu-performance
https://arxiv.org/abs/2202.05924
https://www.researchgate.net/publication/357408276_A_Case_Study_of_Quantizing_Convolutional_Neural_Networks_for_Fast_Disease_Diagnosis_on_Portable_Medical_Devices?_tp=eyJjb250ZXh0Ijp7InBhZ2UiOiJfZGlyZWN0In19
https://blog.csdn.net/qq_40672115/article/details/129746156