😆ONNX中的一些概念

ONNX 可以看作是一门为数学函数打造的编程语言。它定义了关于机器学习推理时所需要的必要操作。例如线性回归可以用以下方式表示:

def onnx_linear_regressor(X):
    "ONNX code for a linear regression"
    return onnx.Add(onnx.MatMul(X, coefficients), bias)

这个例子与在 Python 中编写代码非常相似。因此,使用 ONNX 实现的机器学习模型通常被誉为 ONNX 计算图(ONNX Graph)。

ONNX 旨在提供一种通用语言,任何机器学习框架都可以用它来描述自己的模型。使得生产中部署机器学习模型变得更容易。ONNX解释器(或runtime)可以在部署环境中专门针对某一任务进行部署和优化。有了 ONNX,我们就可以建立一个独特的流程,将模型部署到生产环境中,并且独立于各种机器学习框架。ONNX实现了一个 python runtime,可用于评估 ONNX 模型和 ONNX 操作。

Input, Output, Node, Initializer, Attributes

构建 ONNX Graph意味着使用 ONNX 语言或更准确地说使用ONNX算子实现一个函数。 一个线性回归模型可以这样编写。 下面几行并不遵循 python 语法,只是一种用来说明模型的伪代码。

这段代码实现了一个函数f(x, a, c)-> y = x @ a + c, xacinputsyoutputsr 是中间结果。MatMul Add nodes。它们也有inputsoutputsnode是 ONNX 算子中的某一个类型。

graph还可以有initializer。当输入(如线性回归系数)永不改变时,最好的方法是将其转化为一个常量存储在图中。

如下图所示:右侧描述了运算符Add,其中第二个输入被定义为initializer

attribute 是运算符的固定参数。比如:运算符Gemm有四个属性:alphabetatransAtransB。除非使用ONNX API进行修改,否则一旦加载了 ONNX graph,这些值就不能更改,在模型预测阶段保持不变。

使用protobuf进行序列化

将机器学习模型部署到生产环境中通常需要将训练模型的整个生态系统复制下来,大多数情况下需要使用docker。 一旦模型转换为 ONNX,生产环境只需要runtime来执行计算图。该runtime可以用任何适合生产应用的语言开发,如 C、java、python、javascript、C#、Webassembly、ARM......

但要做到这一点,就需要保存 ONNX 计算图。ONNX 使用 protobuf 将计算图序列化为单个块。其目的是尽可能优化模型大小。

元数据

机器学习模型一直在不断更新。所以跟踪模型的版本模型的作者以及模型的训练方式就显得非常重要。ONNX 提供了在模型中存储额外数据的方式。

  • doc_string: Human-readable documentation for this model.

    Markdown is allowed.

  • domain: A reverse-DNS name to indicate the model namespace or domain,

    for example, ‘org.onnx’

  • metadata_props: Named metadata as dictionary map<string,string>,

    (values, keys) should be distinct.

  • model_author: A comma-separated list of names,

    The personal name of the author(s) of the model, and/or their organizations.

  • model_license: The well-known name or URL of the license

    under which the model is made available.

  • model_version: The version of the model itself, encoded in an integer.

  • producer_name: The name of the tool used to generate the model.

  • producer_version: The version of the generating tool.

  • training_info: An optional extension that contains

    information for training (see TrainingInfoProto)

ONNX算子和域

主要列表在此说明:ONNX算子列表。它融合了标准矩阵运算符(Add、Sub、MatMul、Transpose、Greater、IsNaN、Shape、Reshape...)、归约(ReduceSum、ReduceMin...)、图像变换(Conv、MaxPool...)、深度神经网络层(RNN、DropOut...)、激活函数(Relu、Softmax...)。 ONNX 并不实现所有的机器学习相关的算子,否则列表将是无限的。

运算符的主列表由一个域ai.onnx 标识。 一个可定义为一组算子的集合。 主列表中缺少在标准机器学习中非常流行的基于树的模型,这些模型属于另一个域ai.onnx.ml,它包括基于树的模型(TreeEnsemble Regressor, ...)、预处理(OneHotEncoder, LabelEncoder, ...)、SVM 模型(SVMRegressor, ...)和输入器(Imputer)。

ONNX 只定义了这两个域。但 ONNX 支持任何自定义域和运算符。

支持的类型

ONNX 专门为张量的数值计算做了相关优化。张量是一个多维数组。其定义如下

  • a type: the element type, the same for all elements in the tensor

  • a shape: an array with all dimensions, this array can be empty, a dimension can be null

  • a contiguous array: it represents all the values

该定义不包括strides,也不能根据已有张量定义新张量。ONNX 张量是一个密集型数据。

元素类型

ONNX 最初是为了部署深度学习模型而开发的。 因此,其规格是针对浮点数(32 位)设计的。 当前版本支持所有常见类型。字典TENSOR_TYPE_MAP提供了ONNXnumpy 之间的对应关系。

ONNX 是强类型语言,不支持隐式转换,所以不能将两个不同类型的张量或矩阵进行相加。

稀疏张量

稀疏张量可用于表示具有许多空数值的数组。 ONNX 支持二维稀疏张量。SparseTensorProto类定义了dimsindices(int64) 和values 等属性。

其他类型

除了张量和稀疏张量外,ONNX 还通过定义SequenceProtoMapProto 类型支持张量序列、张量映射、张量映射序列。这些类型很少使用。

什么是opset版本?

opset 映射到onnx软件包的版本。 每次版本增加,它都会递增。 每个版本都会带来更新或新的运算符。

每个 ONNX 计算图还附有一个 opset。这是一个全局信息。操作符Add在第 6、7、13 和 14 版中进行了更新。如果计算图 opset 为 15,则表示操作符Add遵循第 14 版规范。如果计算图 opset 为 12,则算子Add遵循规范版本 7。

ONNX计算图可能包含多个域的算子,例如ai.onnxai.onnx.ml。在这种情况下,计算图必须为每个域定义一个全局opset。该规则适用于同一个域中的所有算子。

可扩展性

ONNX 定义了一系列算子作为标准:ONNX算子(ONNX Operators)。 不过,你也可以在此域或新的域中定义自己的算子。onnxruntime自定义了一些算子以改进推理。 每个节点都有类型、名称、输入和输出以及属性。只要在这些约束条件下描述了节点,就可以将节点添加到任何 ONNX 计算图中作为算子使用。

函数

函数是扩展 ONNX 规范的一种方式。有些模型需要相同的运算符组合。通过创建一个使用现有 ONNX 算子的函数,可以避免这种情况发生。函数一旦定义,其行为就与其他算子一样,有输入、输出和属性。

使用函数有两个好处。第一个是代码更短,更容易阅读。第二个好处是,任何 onnxruntime 都可以利用这些信息更快地进行模型预测。onnxruntime可以为函数提供特定的实现方式,而不依赖于现有算子的实现方式。

形状(和类型)推理

执行 ONNX 计算图并不需要知道模型输出结果的形状,但可以利用这些信息加快执行速度。有以下计算图:

如果xy的形状相同,那么zw的形状也相同。了解了这一点,就可以重复使用为z 分配的缓冲区,就地计算绝对值w。形状推理有助于runtime管理内存,从而提高效率。

在大多数情况下,ONNX 软件包可以根据每个标准算子的输入形状计算输出形状。对于官方列表之外的任何自定义运算符,它显然无法做到这一点。

一些有用的工具

netron 在帮助可视化 ONNX 图形方面非常有用。 这是唯一一个无需编程的工具。第一张截图就是用这个工具制作的。

onnx2py.py 根据 ONNX 图形创建一个 python 文件。该脚本可以创建相同的图形。用户可对其进行修改,以改变图形。

zetane 可以加载 onnx 模型,并在执行模型时显示中间结果。

Last updated

Was this helpful?