AscendDequant

产品支持情况

Ascend 950PR/Ascend 950DT：支持
Atlas A3 训练系列产品/Atlas A3 推理系列产品：支持
Atlas A2 训练系列产品/Atlas A2 推理系列产品：支持
Atlas 200I/500 A2 推理产品：不支持
Atlas 推理系列产品AI Core：支持
Atlas 推理系列产品Vector Core：不支持
Atlas 训练系列产品：不支持

Kirin X90：支持

Kirin 9030：支持

功能说明

按元素做反量化计算，比如将int32_t数据类型反量化为half/float等数据类型。本接口最多支持输入为二维数据，不支持更高维度的输入。

假设输入srcTensor的shape为**（m, n），每行数据（即n个输入数据）所占字节数要求32字节对齐**，每行中进行反量化的元素个数为calCount；
反量化系数deqScale可以为标量或者向量，为向量的情况下，calCount <= deqScale的元素个数，只有前CalCount个反量化系数生效；
输出dstTensor的shape为**（m, n_dst）， n * sizeof(dstT)不满足32字节对齐时，需要向上补齐为32字节**，n_dst为向上补齐后的列数。

下面通过两个具体的示例来解释参数的配置和计算逻辑（下文中DequantParams类型为存储shape信息的结构体{m, n, calCount}）：

如下图示例中，srcTensor的数据类型为int32_t，m = 4，n = 8，calCount = 4，表明srcTensor中每行进行反量化的元素个数为4，deqScale中的前4个数生效，后12个数不参与反量化计算；dstTensor的数据类型为bfloat16_t，m = 4，n_dst = 16 (16 * sizeof(bfloat16_t) % 32 = 0)。计算逻辑是srcTensor的每n个数为一行，对于每行中的前calCount个元素，该行srcTensor的第i个元素与deqScale的第i个元素进行相乘写入dstTensor对应行的第i个元素，dstTensor对应行的第calCount + 1个元素~第n_dst个元素均为不确定的值。
如下示例中，srcTensor的数据类型为int32_t，m = 4，n = 8， calCount = 4，表明srcTensor中每行进行反量化的元素个数为4；dstTensor的数据类型为float，m = 4，n_dst = 8 (8 * sizeof(float) % 32 = 0)。对于srcTensor每行中的前4个元素都和标量deqScale相乘并写入dstTensor中每行的对应位置。

当用户将模板参数中的mode配置为DEQUANT_WITH_SINGLE_ROW时：

针对DequantParams {m, n, calCount}，若同时满足以下3个条件：

m = 1
calCount为 32 / sizeof(dstT)的倍数
n % calCount = 0

此时 {1, n, calCount}会被视作为** {n / calCount, calCount, calCount}** 进行反量化的计算。

具体效果可看下图所示，传入的DequantParams为 {1, 16, 8}。因为dstT为float，所以calCount满足为8的倍数，在DEQUANT_WITH_SINGLE_ROW模式下会将{1, 2 * 8, 8}转换为 {2, 8, 8}进行计算。

PER_TOKEN反量化：srcTensor的每组token（token为n方向，共有m组token）中的元素共享一组deqscale参数，srcTensor为[m, n]时，deqscale为[m, 1]。
PER_GROUP反量化：这里定义group的计算方向为k方向，srcTensor在k方向上每groupSize个元素共享一组deqscale参数。srcTensor为[m, n]时，如果kDim=0，表示k是m方向，deqscale为[(m + groupSize - 1) / groupSize, n]；如果kDim=1，表示k是n方向，deqscale的shape为[m，(n + groupSize - 1) / groupSize]。
- kDim=0：
- kDim=1：

实现原理

以数据类型int32_t，shape为[m, n]的输入srcTensor，数据类型scaleT，shape为[n]的输入deqScale和数据类型dstT，shape为[m, n]的输出dstTensor为例，描述AscendDequant高阶API内部算法框图，如下图所示。

图 1 AscendDequant内部算法框图

计算过程分为如下几步，均在Vector上进行：

精度转换：将srcTensor和deqScale都转换成FP32精度的tensor，分别得到srcFP32和deqScaleFP32；
Mul计算：srcFP32一共有m行，每行长度为n；通过m次循环，将srcFP32的每行与deqScaleFP32相乘，通过mask控制仅对前dequantParams.calcount个数进行mul计算，图中index的取值范围为 [0, m)，对应srcFP32的每一行；计算所得结果为mulRes，shape为[m, n]；
结果数据精度转换：mulRes从FP32转换成dstT类型的tensor，所得结果为dstTensor，shape为[m, n]。

PER_TOKEN/PER_GROUP场景下，输入srcTensor数据类型是int32_t/float，此时内部算法框图如下所示。

图 2 AscendDequant PER_TOKEN/PER_GROUP内部算法框图

PER_TOKEN/PER_GROUP场景的计算逻辑如下：

读取数据：连续读取输入srcTensor；根据不同的场景，对输入deqscale，采用不同的读取方式；例如，PER_TOKEN场景做Broadcast处理，PER_GROUP场景做Gather处理；
精度转换：根据不同输入的数据类型组合，对srcTensor/deqscale进行相应的数据类型转换；
计算：对类型转换后的srcTensor和deqscale数据做乘法；
精度转换：将上述计算得到的结果转换成dstT类型，得到最终输出。

函数原型

反量化参数deqScale为矢量

通过sharedTmpBuffer入参传入临时空间

Text

template <typename dstT, typename scaleT, DeQuantMode mode = DeQuantMode::DEQUANT_WITH_SINGLE_ROW>
__aicore__ inline void AscendDequant(const LocalTensor<dstT>& dstTensor, const LocalTensor<int32_t>& srcTensor, const LocalTensor<scaleT>& deqScale, const LocalTensor<uint8_t>& sharedTmpBuffer, DequantParams params)

接口框架申请临时空间

Text

template <typename dstT, typename scaleT, DeQuantMode mode = DeQuantMode::DEQUANT_WITH_SINGLE_ROW>
__aicore__ inline void AscendDequant(const LocalTensor<dstT>& dstTensor, const LocalTensor<int32_t>& srcTensor, const LocalTensor<scaleT>& deqScale, DequantParams params)

PER_TOKEN/PER_GROUP量化

仅支持Ascend 950PR/Ascend 950DT。

通过sharedTmpBuffer入参传入临时空间

Text

template <typename dstT, typename srcT, typename scaleT, const AscendDeQuantConfig& config, const AscendDeQuantPolicy& policy>
__aicore__ inline void AscendDequant(const LocalTensor<dstT>& dstTensor, const LocalTensor<srcT>& srcTensor, const LocalTensor<scaleT>& scaleTensor, const LocalTensor<scaleT>& offsetTensor, const LocalTensor<uint8_t>& sharedTmpBuffer, const AscendDeQuantParam& para)

接口框架申请临时空间

Text

template <typename dstT, typename srcT, typename scaleT, const AscendDeQuantConfig& config, const AscendDeQuantPolicy& policy>
__aicore__ inline void AscendDequant(const LocalTensor<dstT>& dstTensor, const LocalTensor<srcT>& srcTensor, const LocalTensor<scaleT>& scaleTensor, const LocalTensor<scaleT>& offsetTensor, const AscendDeQuantParam& para)

反量化参数deqScale为标量

通过sharedTmpBuffer入参传入临时空间

Text

template <typename dstT, typename scaleT, DeQuantMode mode = DeQuantMode::DEQUANT_WITH_SINGLE_ROW>
__aicore__ inline void AscendDequant(const LocalTensor<dstT>& dstTensor, const LocalTensor<int32_t>& srcTensor, const scaleT deqScale, const LocalTensor<uint8_t>& sharedTmpBuffer, DequantParams params)

接口框架申请临时空间

Text

template <typename dstT, typename scaleT, DeQuantMode mode = DeQuantMode::DEQUANT_WITH_SINGLE_ROW>
__aicore__ inline void AscendDequant(const LocalTensor<dstT>& dstTensor, const LocalTensor<int32_t>& srcTensor, const scaleT deqScale, DequantParams params)

由于该接口的内部实现中涉及复杂的数学计算，需要额外的临时空间来存储计算过程中的中间变量。临时空间支持接口框架申请和开发者通过sharedTmpBuffer入参传入两种方式。

接口框架申请临时空间，开发者无需申请，但是需要预留临时空间的大小。
通过sharedTmpBuffer入参传入，使用该tensor作为临时空间进行处理，接口框架不再申请。该方式开发者可以自行管理sharedTmpBuffer内存空间，并在接口调用完成后，复用该部分内存，内存不会反复申请释放，灵活性较高，内存利用率也较高。

接口框架申请的方式，开发者需要预留临时空间；通过sharedTmpBuffer传入的情况，开发者需要为sharedTmpBuffer申请空间。临时空间大小BufferSize的获取方式如下：通过GetAscendDequantMaxMinTmpSize中提供的GetAscendDequantMaxMinTmpSize接口获取需要预留空间的范围大小。

以下接口不推荐使用，新开发内容不要使用如下接口：

Text

template <typename dstT, typename scaleT, DeQuantMode mode = DeQuantMode::DEQUANT_WITH_SINGLE_ROW>
__aicore__ inline void AscendDequant(const LocalTensor<dstT>& dstTensor, const LocalTensor<int32_t>& srcTensor, const LocalTensor<scaleT>& deqScale, const LocalTensor<uint8_t>& sharedTmpBuffer, const uint32_t calCount)

Text

template <typename dstT, typename scaleT, DeQuantMode mode = DeQuantMode::DEQUANT_WITH_SINGLE_ROW>
__aicore__ inline void AscendDequant(const LocalTensor<dstT>& dstTensor, const LocalTensor<int32_t>& srcTensor, const LocalTensor<scaleT>& deqScale, const LocalTensor<uint8_t>& sharedTmpBuffer)

Text

template <typename dstT, typename scaleT, DeQuantMode mode = DeQuantMode::DEQUANT_WITH_SINGLE_ROW>
__aicore__ inline void AscendDequant(const LocalTensor<dstT>& dstTensor, const LocalTensor<int32_t>& srcTensor, const LocalTensor<scaleT>& deqScale, const uint32_t calCount)

Text

template <typename dstT, typename scaleT, DeQuantMode mode = DeQuantMode::DEQUANT_WITH_SINGLE_ROW>
__aicore__ inline void AscendDequant(const LocalTensor<dstT>& dstTensor, const LocalTensor<int32_t>& srcTensor, const LocalTensor<scaleT>& deqScale)

参数说明

表 1 模板参数说明

参数名	描述
dstT	目的操作数的数据类型。
scaleT	deqScale的数据类型。
mode	决定当DequantParams为{1, n, calCount}时的计算逻辑，传入enum DeQuantMode，支持以下 2 种配置： DEQUANT_WITH_SINGLE_ROW：当DequantParams {m, n, calCount} 同时满足以下条件：1、m = 1；2、calCount为 32 / sizeof(dstT)的倍数；3、n % calCount = 0时，即 {1, n, calCount} 会当作 {n / calCount, calCount, calCount} 进行计算。 DEQUANT_WITH_MULTI_ROW：即使满足上述所有条件，{1, n, calCount} 依然只会当作 {1, n, calCount} 进行计算，即总共n个数，前calCount个数进行反量化的计算。

表 2 PER_TOKEN/PER_GROUP场景模板参数说明

参数名	描述
srcT	源操作数的数据类型。
config	量化接口配置参数，AscendDeQuantConfig类型，定义如下方代码所示，其中参数的含义如下。 hasOffset：量化参数offset是否参与计算。True：表示offset参数参与计算。False：表示offset参数不参与计算。 kDim：group的计算方向，即k方向。仅在PER_GROUP场景有效，支持的取值如下。0：k轴是第0轴，即m方向为group的计算方向；1：k轴是第1轴，即n方向为group的计算方向。
policy	量化策略配置参数，AscendDeQuantPolicy 枚举类型，可取值如下： PER_TOKEN：配置为PER_TOKEN模式。 PER_GROUP：配置为PER_GROUP模式。 PER_CHANNEL_PER_GROUP：预留参数，暂不支持。 PER_TOKEN_PER_GROUP：预留参数，暂不支持。

Text

struct AscendDeQuantConfig {
        bool hasOffset;
        int32_t kDim = 1;
}

表 3 接口参数说明

参数名	输入/输出	描述
dstTensor	输出	目的操作数。类型为LocalTensor，支持的TPosition为VECIN/VECCALC/VECOUT。不同型号支持的数据类型请参考dstTensor支持的数据类型。 dstTensor的行数和srcTensor的行数保持一致。 n * sizeof(dstT)不满足32字节对齐时，需要向上补齐为32字节，n_dst为向上补齐后的列数。如srcTensor数据类型为int32_t，shape为 (4, 8)，dstTensor为bfloat16_t，则n_dst应从8补齐为16，dstTensor shape为(4, 16)。补齐的计算过程为：n_dst = (8 * sizeof(bfloat16_t) + 32 - 1) / 32 * 32 / sizeof(bfloat16_t)。
srcTensor	输入	源操作数。类型为LocalTensor，支持的TPosition为VECIN/VECCALC/VECOUT。支持的数据类型为：int32_t。 shape为 [m, n]，n个输入数据所占字节数要求32字节对齐。
deqScale	输入	源操作数。类型为标量或者LocalTensor。类型为LocalTensor时，支持的TPosition为VECIN/VECCALC/VECOUT。不同型号支持的数据类型请参考deqScale支持的数据类型。 dstTensor、srcTensor、deqScale支持的数据类型组合请参考表5和表6。
sharedTmpBuffer	输入	临时缓存。类型为LocalTensor，支持的TPosition为VECIN/VECCALC/VECOUT。支持的数据类型为：uint8_t。临时空间大小BufferSize的获取方式请参考GetAscendDequantMaxMinTmpSize。
params	输入	srcTensor的shape信息。DequantParams类型，定义如下方代码所示，其中参数的含义如下。 m：srcTensor的行数。 n：srcTensor的列数。 calCount：针对srcTensor每一行，前calCount个数为有效数据，与deqScale的前calCount个数或者deqScale标量进行乘法计算。请注意： DequantParams.n * sizeof(T)必须是32字节的整数倍，T为srcTensor中元素的数据类型。因为是每n个数中的前calCount个数进行乘法运算，因此DequantParams.n和calCount需要满足以下关系：1 <= DequantParams.calCount <= DequantParams.n。 deqScale为矢量时，DequantParams.calCount <= deqScale的元素个数。

Text

struct DequantParams
{
    uint32_t m;
    uint32_t n;
    uint32_t calCount;
};

表 4 PER_TOKEN/PER_GROUP场景接口参数说明

参数名	输入/输出	描述
dstTensor	输出	目的操作数。支持的数据类型为：half、bfloat16_t、float。类型为LocalTensor，支持的TPosition为VECIN/VECCALC/VECOUT。
srcTensor	输入	源操作数。支持的数据类型为：int32_t、float。类型为LocalTensor，支持的TPosition为VECIN/VECCALC/VECOUT。
sharedTmpBuffer	输入	临时缓存。支持的数据类型为：uint8_t。类型为LocalTensor，支持的TPosition为VECIN/VECCALC/VECOUT。临时空间大小BufferSize的获取方式请参考GetAscendQuantMaxMinTmpSize。
scaleTensor	输入	量化参数scale。支持的数据类型为：half、bfloat16_t、float。类型为LocalTensor，支持的TPosition为VECIN/VECCALC/VECOUT。
offsetTensor	输入	量化参数offset。支持的数据类型和scaleTensor保持一致。预留参数，当前暂不支持。类型为LocalTensor，支持的TPosition为VECIN/VECCALC/VECOUT。
para	输入	反量化接口的参数，定义如下方代码所示，其中参数的含义如下。 m：m方向元素个数。 n：n方向元素个数。n值对应的数据大小需满足32B对齐的要求，即shape最后一维为n的输入输出均需要满足该维度上32B对齐的要求。 calCount：参与计算的元素个数。calCount必须是n的整数倍。 groupSize ：PER_GROUP场景有效，表示groupSize行/列数据共用一个scale/offset。groupSize的取值必须大于0且是32的整倍数。

Text

struct AscendDeQuantParam {
        uint32_t m;
        uint32_t n;
        uint32_t calCount;
        uint32_t groupSize = 0;
}

表 5 支持的数据类型组合（deqScale为LocalTensor）

dstTensor	srcTensor	deqScale
half	int32_t	uint64_t 注意：当deqScale的数据类型是uint64_t时，数值低32位是参与计算的数据，数据类型是float，数值高32位是一些控制参数，本接口不使用。
float	int32_t	float
float	int32_t	bfloat16_t
bfloat16_t	int32_t	bfloat16_t
bfloat16_t	int32_t	float

表 6 支持的数据类型组合（deqScale为标量）

dstTensor	srcTensor	deqScale
bfloat16_t	int32_t	bfloat16_t
bfloat16_t	int32_t	float
float	int32_t	bfloat16_t
float	int32_t	float

表 7 PER_TOKEN/PER_GROUP场景支持的数据类型组合

srcDtype	scaleDtype	dstDtype
int32_t	half	half
int32_t	bfloat16_t	bfloat16_t
int32_t	float	float
int32_t	float	half
int32_t	float	bfloat16_t
float	half	half
float	bfloat16_t	bfloat16_t
float	float	float
float	float	half
float	float	bfloat16_t

返回值说明

无

约束说明

不支持源操作数与目的操作数地址重叠。
操作数地址对齐要求请参见通用地址对齐约束。
PER_TOKEN/PER_GROUP场景，连续计算方向（即n方向）的数据量要求32B对齐。
非PER_TOKEN/PER_GROUP场景dstTensor支持的数据类型
Ascend 950PR/Ascend 950DT，支持的数据类型为：half、bfloat16_t、float。
Atlas A3 训练系列产品/Atlas A3 推理系列产品，支持的数据类型为：half、bfloat16_t、float。
Atlas A2 训练系列产品/Atlas A2 推理系列产品，支持的数据类型为：half、bfloat16_t、float。
Atlas 推理系列产品AI Core，支持的数据类型为：half、float。
Kirin X90，支持的数据类型为：half、float。
Kirin 9030，支持的数据类型为：half、float。
非PER_TOKEN/PER_GROUP场景deqScale支持的数据类型
Ascend 950PR/Ascend 950DT，当deqScale为矢量时，支持的数据类型为：uint64_t、float、bfloat16_t；当deqScale为标量时，支持的数据类型为bfloat16_t、float。
Atlas A3 训练系列产品/Atlas A3 推理系列产品，当deqScale为矢量时，支持的数据类型为：uint64_t、float、bfloat16_t；当deqScale为标量时，支持的数据类型为bfloat16_t、float。
Atlas A2 训练系列产品/Atlas A2 推理系列产品，当deqScale为矢量时，支持的数据类型为：uint64_t、float、bfloat16_t；当deqScale为标量时，支持的数据类型为bfloat16_t、float。
Atlas 推理系列产品AI Core，当deqScale为矢量时，支持的数据类型为：uint64_t、float；当deqScale为标量时，支持的数据类型为float。
Kirin X90，当deqScale为矢量时，支持的数据类型为：uint64_t、float；当deqScale为标量时，支持的数据类型为float。
Kirin 9030，当deqScale为矢量时，支持的数据类型为：uint64_t、float；当deqScale为标量时，支持的数据类型为float。

调用示例

Text

// dstLocal: 存 放 反 量 化 计 算 的 结 果Tensor
// srcLocal: 存 放 反 量 化 计 算 的 输 入Tensor
// deqScaleLocal: 存 放 反 量 化 计 算 量 反 量 化 系 数 的 输 入Tensor
// sharedTmpBuffer: 存 放 反 量 化 计 算 过 程 中 临 时 缓 存 的Tensor

uint32_t m = 4;  // srcTensor的 行 数
uint32_t n = 8;  // srcTensor的 列 数
uint32_t calCount = 6;  // 每 行srcTensor的 前calCount个 数 参 与 反 量 化 计 算

// 反 量 化 参 数deqScale为 矢 量，通 过sharedTmpBuffer入 参 传 入 临 时 空 间。
AscendC::AscendDequant(dstLocal, srcLocal, deqScaleLocal, sharedTmpBuffer, {m, n, calCount});

// 反 量 化 参 数deqScale为 矢 量，通 过 接 口 框 架 申 请 临 时 空 间。
AscendC::AscendDequant(dstLocal, srcLocal, deqScaleLocal, {m, n, calCount});

// 反 量 化 参 数deqScale为 标 量，通 过sharedTmpBuffer入 参 传 入 临 时 空 间。
AscendC::AscendDequant(dstLocal, srcLocal, static_cast<float>(2.2), sharedTmpBuffer, {m, n, calCount});
// 反 量 化 参 数deqScale为 标 量，通 过 接 口 框 架 申 请 临 时 空 间。
AscendC::AscendDequant(dstLocal, srcLocal, static_cast<float>(2.2), {m, n, calCount});

结果示例如下：

Text

输 入 数 据(srcLocal) int32_t数 据 类 型:
[[-16 -15 -14 -13 -12 -11 -10  -9]
 [ -8  -7  -6  -5  -4  -3  -2  -1]
 [  0   1   2   3   4   5   6   7]
 [  8   9  10  11  12  13  14  15]]

反 量 化 参 数deqScaleLocal float数 据 类 型:
[2.2  -2.2  2.2  -2.2  2.2  -2.2  0.  0.]

输 出 数 据(dstLocal) float数 据 类 型:
[[-35.2  33.  -30.8  28.6 -26.4  24.2 -10.   -9. ]
 [-17.6  15.4 -13.2  11.   -8.8   6.6  -2.   -1. ]
 [  0.   -2.2   4.4  -6.6   8.8 -11.    6.    7. ]
 [ 17.6 -19.8  22.  -24.2  26.4 -28.6  14.   15. ]]

PER_TOKEN/PER_GROUP场景调用示例如下。

Text

// 注 意m,n需 从 外 部 传 入
constexpr static bool isReuseSource = false;
constexpr static AscendDeQuantConfig config = {has_offset, -1};
constexpr static AscendDeQuantPolicy policy = AscendDeQuantPolicy::PER_TOKEN; // 可 修 改 枚 举 值 以 开 启PER_GROUP
AscendDeQuantParam para;
para.m = m;
para.n = n;
para.calCount = calCount;
AscendDequant<dstType, srcType, scaleType, config, policy>(dstLocal, srcLocal, scaleLocal, offsetLocal, para);

2.3.6.1. Layout数 据 结 构

2.3.6.2. Tensor数 据 结 构

2.3.6.3. 工 具 函 数

2.4.2.1. DataCopy

2.4.3.1. 概 述

2.4.3.2. 矩 阵 计 算 分 形 介 绍

2.4.3.3. 矩 阵 计 算 的 搬 入

2.4.3.3.4. 矩 阵 数 据 搬 入 至L1 Buffer

2.4.3.3.5. 矩 阵 数 据 搬 入 至L0 Buffer

2.4.3.3.6. 辅 助 配 置 接 口

2.4.3.4. 数 据 搬 运

2.4.3.4.2. LoadData

2.4.3.5. 矩 阵 计 算

2.4.3.5.5. 关 键 特 性 说 明

2.4.3.5.6. 寄 存 器 配 置 说 明

2.4.3.6. 矩 阵 计 算 的 搬 出

2.4.3.6.10. L1到GM数 据 搬 运

2.4.3.6.11. 关 键 特 性 说 明

2.4.3.6.12. 寄 存 器 配 置 说 明

2.4.4.1. 概 述

2.4.4.2. 矩 阵 计 算 分 形 介 绍

2.4.4.3. 矩 阵 计 算 的 搬 入

2.4.4.3.3. 矩 阵 数 据 搬 入 至L1 Buffer

2.4.4.3.4. 矩 阵 数 据 搬 入 至L0 Buffer)

2.4.4.4. Mmad计 算

2.4.4.4.2. 关 键 特 性 说 明

2.4.4.4.3. 寄 存 器 配 置 说 明

2.4.4.5. 矩 阵 计 算 的 搬 出

2.4.4.5.4. 关 键 特 性 说 明

2.4.5.2. SIMD计 算 说 明

2.4.5.2.4. 掩 码

2.4.5.3. 数 据 搬 运

2.4.5.3.1. GM与UB数 据 搬 运

2.4.5.3.2. UB与UB数 据 搬 运

2.4.5.4. 基 础 算 术

2.4.5.5. 逻 辑 计 算

2.4.5.6. 复 合 计 算

2.4.5.7. 比 较 与 选 择

2.4.5.8. 类 型 转 换

2.4.5.8.1. 寄 存 器 配 置 说 明

2.4.5.9. 归 约 计 算

2.4.5.9.8. 寄 存 器 辅 助 接 口

2.4.5.10. 数 据 排 布 转 换

2.4.5.11. 数 据 填 充

2.4.5.12. 排 序 组 合（ISASI）

2.4.5.13. 离 散 与 聚 合

2.4.5.14. 掩 码 操 作

2.4.5.15. 数 据 重 排（ISASI）

2.4.6.1. 寄 存 器 数 据 类 型

2.4.6.3. Reg数 据 搬 运

2.4.6.4. MaskReg计 算

2.4.6.5. 基 础 算 术

2.4.6.6. 逻 辑 计 算

2.4.6.7. 复 合 计 算

2.4.6.8. 比 较 与 选 择

2.4.6.9. 类 型 转 换

2.4.6.10. 归 约 计 算

2.4.6.11. 数 据 填 充

2.4.6.12. 离 散 与 聚 合

2.4.6.13. 数 据 重 排

2.4.6.14. 数 据 压 缩

2.4.6.15. 直 方 图 计 算

2.4.6.16. 索 引 操 作

2.4.6.17. 同 步 控 制

2.4.6.18. 系 统 变 量 访 问

2.4.6.19. 数 据 类 型

2.4.8.1. Pipe和Que框 架

2.4.8.1.1. TPipe

2.4.8.1.3. TBufPool

2.4.8.1.4. 自 定 义TBufPool

2.4.8.1.5. TQue

2.4.8.1.6. TSCM

2.4.8.1.7. TQueBind

2.4.8.1.8. TBuf

2.4.8.2. 临 时 空 间 管 理

2.4.8.2.1. workspace

2.4.8.3. 内 存 管 理

2.4.8.3.1. LocalMemAllocator

2.4.9.2. 核 内 同 步

2.4.9.2.3. TQueSync

2.3.6.1. Layout数据结构

2.3.6.2. Tensor数据结构

2.3.6.3. 工具函数

2.4.3.1. 概述

2.4.3.2. 矩阵计算分形介绍

2.4.3.3. 矩阵计算的搬入

2.4.3.3.4. 矩阵数据搬入至L1 Buffer

2.4.3.3.5. 矩阵数据搬入至L0 Buffer

2.4.3.3.6. 辅助配置接口

2.4.3.4. 数据搬运

2.4.3.5. 矩阵计算

2.4.3.5.5. 关键特性说明

2.4.3.5.6. 寄存器配置说明

2.4.3.6. 矩阵计算的搬出

2.4.3.6.10. L1到GM数据搬运

2.4.3.6.11. 关键特性说明

2.4.3.6.12. 寄存器配置说明

2.4.4.1. 概述

2.4.4.2. 矩阵计算分形介绍

2.4.4.3. 矩阵计算的搬入

2.4.4.3.3. 矩阵数据搬入至L1 Buffer

2.4.4.3.4. 矩阵数据搬入至L0 Buffer)

2.4.4.4. Mmad计算

2.4.4.4.2. 关键特性说明

2.4.4.4.3. 寄存器配置说明

2.4.4.5. 矩阵计算的搬出

2.4.4.5.4. 关键特性说明

2.4.5.2. SIMD计算说明

2.4.5.2.4. 掩码

2.4.5.3. 数据搬运

2.4.5.3.1. GM与UB数据搬运

2.4.5.3.2. UB与UB数据搬运

2.4.5.4. 基础算术

2.4.5.5. 逻辑计算

2.4.5.6. 复合计算

2.4.5.7. 比较与选择

2.4.5.8. 类型转换

2.4.5.8.1. 寄存器配置说明

2.4.5.9. 归约计算

2.4.5.9.8. 寄存器辅助接口

2.4.5.10. 数据排布转换

2.4.5.11. 数据填充

2.4.5.12. 排序组合（ISASI）

2.4.5.13. 离散与聚合

2.4.5.14. 掩码操作

2.4.5.15. 数据重排（ISASI）

2.4.6.1. 寄存器数据类型

2.4.6.3. Reg数据搬运

2.4.6.4. MaskReg计算

2.4.6.5. 基础算术

2.4.6.6. 逻辑计算

2.4.6.7. 复合计算

2.4.6.8. 比较与选择

2.4.6.9. 类型转换

2.4.6.10. 归约计算

2.4.6.11. 数据填充

2.4.6.12. 离散与聚合

2.4.6.13. 数据重排

2.4.6.14. 数据压缩

2.4.6.15. 直方图计算

2.4.6.16. 索引操作

2.4.6.17. 同步控制

2.4.6.18. 系统变量访问

2.4.6.19. 数据类型

2.4.8.1. Pipe和Que框架

2.4.8.1.4. 自定义TBufPool

2.4.8.2. 临时空间管理

2.4.8.3. 内存管理

2.4.9.2. 核内同步

2.4.9.3. 核间同步

2.4.9.4. 任务间同步

2.4.12.1. 上板打印

2.4.12.2. 异常检测

2.4.12.3. CPU孪生调试

2.4.12.4. 性能统计

2.4.13.1. 执行模式

2.4.13.2. 系统初始化

2.4.13.3. 数学计算

2.4.13.4. 系统资源与变量

2.6.1.1. Tanh接口