随路量化激活搬运

产品支持情况

产品	是否支持
Ascend 950PR/Ascend 950DT	√
Atlas A3 训练系列产品/Atlas A3 推理系列产品	√
Atlas A2 训练系列产品/Atlas A2 推理系列产品	√
Atlas 200I/500 A2 推理产品	√
Atlas 推理系列产品AI Core	x
Atlas 推理系列产品Vector Core	x
Atlas 训练系列产品	x

功能说明

支持在数据搬运过程中进行量化和Relu激活等操作，同时支持Local Memory到Global Memory通路NZ到ND格式的转换。

函数原型

Local Memory -> Global Memory，支持量化和Relu激活等操作，同时支持NZ到ND格式的转换

Text

template <typename T, typename U>
__aicore__ inline void DataCopy(const GlobalTensor<T>& dst, const LocalTensor<U>& src, const DataCopyCO12DstParams& intriParams)

Local Memory -> Local Memory，支持量化和Relu激活等操作

Text

template <typename T, typename U>
__aicore__ inline void DataCopy(const LocalTensor<T>& dst, const LocalTensor<U>& src, const DataCopyCO12DstParams& intriParams)

说明

各原型支持的具体数据通路和数据类型，请参考支持的通路和数据类型。

参数说明

表 1 模板参数说明

参数名	描述
T	目的操作数的数据类型。支持的数据类型请参考支持的通路和数据类型。
U	源操作数的数据类型。支持的数据类型请参考支持的通路和数据类型。

表 2 参数说明

参数名称	输入/输出	含义
dst	输出	目的操作数，类型为LocalTensor或GlobalTensor。
src	输入	源操作数，类型为LocalTensor。
intriParams	输入	搬运参数，类型为DataCopyCO12DstParams。具体定义请参考 ${INSTALL_DIR}/include/ascendc/basic_api/interface/kernel_struct_data_copy.h，${INSTALL_DIR}请替换为CANN软件安装后文件存储路径。

参数名称

输入/输出

含义

dst

输出

目的操作数，类型为LocalTensor或GlobalTensor。

src

输入

源操作数，类型为LocalTensor。

intriParams

输入

搬运参数，类型为DataCopyCO12DstParams。

具体定义请参考 ${INSTALL_DIR}/include/ascendc/basic_api/interface/kernel_struct_data_copy.h，${INSTALL_DIR}请替换为CANN软件安装后文件存储路径。

表 3 DataCopyCO12DstParams结构体参数定义（C0取值：一般情况下，C0 = 16；开启channelSplit（channel切分）时，C0 = 8）

参数名称	含义
nSize	src横向方向的size大小。不开启NZ2ND功能，必须为C0的倍数，此时连续传输数据块的个数为nSize / C0。开启NZ2ND功能，不受限制。
mSize	src纵向方向的size大小。不开启NZ2ND功能，连续传输数据块的大小为mSize * C0个元素的长度。开启NZ2ND功能，NZ/ND矩阵的大小为mSize * nSize。
dstStride	不开启NZ2ND功能 dst相邻连续数据片段间隔（前面一个数据块的头与后面数据块的头的间隔），取值不为0。单位为DataBlock（32字节）。开启NZ2ND功能 dst同一ND矩阵的相邻行的偏移（头与头），取值不为0，单位为元素。
srcStride	不开启NZ2ND功能 src相邻连续数据片段间隔（前面一个数据块的头与后面数据块的头的间隔），必须为16的倍数。取值范围：srcStride∈[0, 65535]，单位：C0_Size(C0 * sizeof(U)，U为src的数据类型)。开启NZ2ND功能 src同一NZ矩阵的相邻Z排布的偏移（头与头），必须为16的倍数，取值范围：srcStride∈[0, 65535]，单位C0_size。
quantPre	用于控制量化模式，QuantMode_t类型，具体定义如下。默认值为QuantMode_t::NoQuant，即不开启量化功能。配置为scalar量化时，需要调用SetFixpipePreQuantFlag接口来设置scalar量化参数；配置为tensor量化时，需要调用SetFixPipeConfig来设置tensor量化参数。 enum QuantMode_t { NoQuant, // 不开启量化功能 F322F16, // float cast成half，cast mode为CAST_RINT模式 F322BF16, // float cast成bfloat16_t，cast mode为CAST_RINT模式 DEQF16, // int32_t量化成half, scalar量化 VDEQF16, // int32_t量化成half，tensor量化 QF322B8_PRE, // float量化成int8_t/uint8_t，scalar量化 VQF322B8_PRE, // float量化成int8_t/uint8_t，tensor量化 REQ8, // int32_t量化成int8_t/uint8_t，scalar量化 VREQ8, // int32_t量化成int8_t/uint8_t，tensor量化 };
reluPre	用于配置relu操作的模式，类型为uint8_t，取值如下： 0：不开启relu 1：Normal relu
channelSplit	类型为bool，配置是否开启channel切分，对于float类型的dst生效。 false：不开启 true：开启
nz2ndEn	类型为bool，配置是否开启NZ2ND的格式转换，仅在CO1 -> GM通路生效。如果要开启NZ2ND的功能需要同步调用SetFixpipeNz2ndFlag来设置格式转换的相关配置信息。 false：不开启 true：开启
clipReluPre	用于配置是否开启ClipRelu操作，参数类型为uint8_t，取值如下：0，不开启ClipRelu；1，开启ClipRelu，此时需要调用SetFixPipeClipRelu来设置clipRelu的最大值。该操作在随路量化后进行，quantPre配置后才能使用，当前支持的量化模式有F322F16/DEQF16/VDEQF16/QF322B8_PRE/VQF322B8_PRE/REQ8/VREQ8。该参数仅在 Atlas 200I/500 A2 推理产品支持。
eltWiseOp	用于配置是否开启Elementwise操作及操作模式。Elementwise操作是指进行随路量化后，可以逐个元素加/减一个LocalTensor，大小为mSize * nSize，具体LocalTensor地址相关参数需要调用SetFixPipeAddr来设置。 eltWiseOp参数类型为uint8_t，取值如下： 0：不开启Elementwise 1：Elementwise Addition 2：Elementwise Subtraction 该参数仅在 Atlas 200I/500 A2 推理产品支持。
unitFlag	unitFlag是一种Mmad指令和Fixpipe指令细粒度的并行功能，使能该功能后，硬件每计算完一个分形，计算结果就会被搬出。取值说明如下： 0（2'b00）：不使能unitFlag。 1（2'b01）：保留值。 2（2'b10）：使能unitFlag，硬件执行完指令之后，不复位单元标记位。 3（2'b11）：使能unitFlag，硬件执行完指令之后，复位单元标记位。注：使能该功能时，须将Mmad指令和Fixpipe指令的unitFlag值设置为2或3。
sid	预留参数，为后续的功能做保留，开发者暂时无需关注。

返回值说明

无

约束说明

无

支持的通路和数据类型

下文的数据通路均通过逻辑位置TPosition来表达，并注明了对应的物理通路。TPosition与物理内存的映射关系见表1。

表 4 Local Memory -> Global Memory具体通路和支持的数据类型

支持型号	数据通路	源操作数的数据类型	目的操作数的数据类型
Atlas A2 训练系列产品/Atlas A2 推理系列产品	CO1 -> GM（L0C Buffer -> GM）	float	uint8_t、int8_t、half、bfloat16_t、float
Atlas A2 训练系列产品/Atlas A2 推理系列产品	CO1 -> GM（L0C Buffer -> GM）	int32_t	uint8_t、int8_t、half、int16_t、int32_t
Atlas A3 训练系列产品/Atlas A3 推理系列产品	CO1 -> GM（L0C Buffer -> GM）	float	uint8_t、int8_t、half、bfloat16_t、float
Atlas A3 训练系列产品/Atlas A3 推理系列产品	CO1 -> GM（L0C Buffer -> GM）	int32_t	uint8_t、int8_t、half、int16_t、int32_t
Atlas 200I/500 A2 推理产品	CO1 -> GM（L0C Buffer -> GM）	float	uint8_t、int8_t、half、bfloat16_t、float
Atlas 200I/500 A2 推理产品	CO1 -> GM（L0C Buffer -> GM）	int32_t	uint8_t、int8_t、half、int16_t、int32_t
Ascend 950PR/Ascend 950DT	CO1 -> GM（L0C Buffer -> GM）	float	uint8_t、int8_t、half、bfloat16_t、float
Ascend 950PR/Ascend 950DT	CO1 -> GM（L0C Buffer -> GM）	int32_t	uint8_t、int8_t、half、int16_t、int32_t

表 5 Local Memory -> Local Memory具体通路和支持的数据类型

支持型号	数据通路	源操作数的数据类型	目的操作数的数据类型
Atlas A2 训练系列产品/Atlas A2 推理系列产品	CO1 -> A1（L0C Buffer -> L1 Buffer）	float	uint8_t、int8_t、half、bfloat16_t
Atlas A2 训练系列产品/Atlas A2 推理系列产品	CO1 -> A1（L0C Buffer -> L1 Buffer）	int32_t	uint8_t、int8_t、half、int16_t
Atlas A3 训练系列产品/Atlas A3 推理系列产品	CO1 -> A1（L0C Buffer -> L1 Buffer）	float	uint8_t、int8_t、half、bfloat16_t
Atlas A3 训练系列产品/Atlas A3 推理系列产品	CO1 -> A1（L0C Buffer -> L1 Buffer）	int32_t	uint8_t、int8_t、half、int16_t
Ascend 950PR/Ascend 950DT	CO1 -> A1（L0C Buffer -> L1 Buffer）	float	uint8_t、int8_t、half、bfloat16_t、float
Ascend 950PR/Ascend 950DT	CO1 -> A1（L0C Buffer -> L1 Buffer）	int32_t	uint8_t、int8_t、half、int16_t、int32_t

调用示例

随路格式转换数据搬运，通路：CO1->A1、CO1->GM

示例：Mmad含有矩阵乘偏置，左矩阵和右矩阵的数据类型为int8_t，结果矩阵的数据类型为int32_t。量化模式DEQF16，Scalar量化参数为2.0，将Mmad计算出的结果由int32_t量化成half并搬出。完整算子样例参考：随路Scalar量化样例。

Text

// Scalar量 化，量 化 参 数 为2.0
float quantScalar = 2.0;
uint64_t deqScalar = static_cast<uint64_t>(*reinterpret_cast<int32_t*>(&quantScalar));
// 将 量 化 参 数 的 标 量 写 入 寄 存 器，供 后 续DataCopy指 令 使 用
AscendC::SetFixpipePreQuantFlag(deqScalar);
// 创 建DataCopy的 参 数
AscendC::DataCopyCO12DstParams intriParams;
intriParams.nSize = n;
intriParams.mSize = m;
intriParams.srcStride = CeilAlign(m, CUBE_BLOCK);
intriParams.dstStride = n;
intriParams.quantPre = QuantMode_t::DEQF16;
intriParams.reluPre = 1; // 开 启ReLU
intriParams.nz2ndEn = true; // 开 启NZ2ND格 式 转 换
// 根 据intriParams中 的 参 数，执 行 最 终 的 数 据 搬 运
AscendC::DataCopy(cGM, cLocal, intriParams);

结果示例如下：

Text

输 入 数 据（Fm，shape为[1, 4, 4, 32]，数 据 类 型 为int8_t）：
[[[[ 1  1  1  1  1  1  1  1  1  2  2  2  2  2  2  2  2  3  3  3  3  3  3  3  3  4  4  4  4  4  4  4]
    ...
   [12 12 13 13 13 13 13 13 13 13 14 14 14 14 14 14 14 14 15 15 15 15 15 15 15 15 16 16 16 16 16 16]]
  [[16 16 17 17 17 17 17 17 17 17 18 18 18 18 18 18 18 18 19 19 19 19 19 19 19 19 19 20 20 20 20 20]
    ...
   [28 28 28 28 29 29 29 29 29 29 29 29 30 30 30 30 30 30 30 30 31 31 31 31 31 31 31 31 32 32 32 32]]
  [[32 32 32 32 33 33 33 33 33 33 33 33 34 34 34 34 34 34 34 34 35 35 35 35 35 35 35 35 36 36 36 36]
    ...
   [44 44 44 44 44 45 45 45 45 45 45 45 45 46 46 46 46 46 46 46 46 46 47 47 47 47 47 47 47 47 48 48]]
  [[48 48 48 48 48 48 49 49 49 49 49 49 49 49 50 50 50 50 50 50 50 50 51 51 51 51 51 51 51 51 52 52]
    ...
   [60 60 60 60 60 60 60 61 61 61 61 61 61 61 61 62 62 62 62 62 62 62 62 63 63 63 63 63 63 63 63 64]]]]
输 入 数 据（Weight，shape为[1, 2, 2, 128, 32]，数 据 类 型 为int8_t）：
[[[[[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]
    ...
    [1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]]]]]
输 出 数 据（DstL0c，shape为[8, 16, 32]，数 据 类 型 为int32_t）：
[[[1572,1572,1572,1572,1572,1572,1572,1572,1572,1572,1572,1572,1572,1572,1572,1572],
  [2078,2078,2078,2078,2078,2078,2078,2078,2078,2078,2078,2078,2078,2078,2078,2078],
  [2582,2582,2582,2582,2582,2582,2582,2582,2582,2582,2582,2582,2582,2582,2582,2582],
  [3592,3592,3592,3592,3592,3592,3592,3592,3592,3592,3592,3592,3592,3592,3592,3592],
  [4097,4097,4097,4097,4097,4097,4097,4097,4097,4097,4097,4097,4097,4097,4097,4097],
  [4602,4602,4602,4602,4602,4602,4602,4602,4602,4602,4602,4602,4602,4602,4602,4602],
  [5612,5612,5612,5612,5612,5612,5612,5612,5612,5612,5612,5612,5612,5612,5612,5612],
  [6116,6116,6116,6116,6116,6116,6116,6116,6116,6116,6116,6116,6116,6116,6116,6116],
  [6622,6622,6622,6622,6622,6622,6622,6622,6622,6622,6622,6622,6622,6622,6622,6622],
  [0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
  [0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
  [0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
  [0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
  [0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
  [0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
  [0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0]],
  ...
输 出 数 据（DstGm，shape为[8, 9, 32]，数 据 类 型 为half）：
[[[ 786.  786.  786.  786.  786.  786.  786.  786.  786.  786.  786.  786.  786.  786.  786.  786.]
   ...
  [1039. 1039. 1039. 1039. 1039. 1039. 1039. 1039. 1039. 1039. 1039. 1039. 1039. 1039. 1039. 1039.]
   ...
  [1291. 1291. 1291. 1291. 1291. 1291. 1291. 1291. 1291. 1291. 1291. 1291. 1291. 1291. 1291. 1291.]
   ...
  [1796. 1796. 1796. 1796. 1796. 1796. 1796. 1796. 1796. 1796. 1796. 1796. 1796. 1796. 1796. 1796.]
   ...
  [2048. 2048. 2048. 2048. 2048. 2048. 2048. 2048. 2048. 2048. 2048. 2048. 2048. 2048. 2048. 2048.]
   ...
  [2300. 2300. 2300. 2300. 2300. 2300. 2300. 2300. 2300. 2300. 2300. 2300. 2300. 2300. 2300. 2300.]
   ...
  [2806. 2806. 2806. 2806. 2806. 2806. 2806. 2806. 2806. 2806. 2806. 2806. 2806. 2806. 2806. 2806.]
   ...
  [3058. 3058. 3058. 3058. 3058. 3058. 3058. 3058. 3058. 3058. 3058. 3058. 3058. 3058. 3058. 3058.]
   ...
  [3312. 3312. 3312. 3312. 3312. 3312. 3312. 3312. 3312. 3312. 3312. 3312. 3312. 3312. 3312. 3312.]
   ...

示例：Mmad含有矩阵乘偏置，左矩阵和右矩阵的数据类型为int8_t，结果矩阵的数据类型为int32_t。量化模式VDEQF16，Tensor量化，将Mmad计算出的结果由int32_t量化成half并搬出。完整算子样例参考：随路Tensor量化样例。

Text

// CeilAlign定 义 如 下
__aicore__ inline uint16_t CeilAlign(uint16_t numerator, uint16_t denominator) 
{
    return (numerator + denominator - 1) / denominator * denominator;
}
// 将GM中 的 量 化 数 据 (quantAlphaGM) 拷 贝 到C1（quantAlphaTensor）
uint16_t burstLen = CeilAlign(n * sizeof(uint64_t), 128) / AscendC::ONE_BLK_SIZE;
AscendC::DataCopyParams intriParams{ 1, burstLen, 0, 0 };
AscendC::DataCopy(quantAlphaTensor, quantAlphaGM, intriParams);
// 设 置 同 步，确 保 量 化 数 据 拷 贝 到C1后，执 行 后 续DataCopy指 令
AscendC::SetFlag<AscendC::HardEvent::MTE2_FIX>(EVENT_ID0);
AscendC::WaitFlag<AscendC::HardEvent::MTE2_FIX>(EVENT_ID0);
// 将C1中 的 量 化 数 据（quantAlphaTensor）拷 贝 到C2PIPE2GM（fbTensor）
uint16_t fbufBurstLen = CeilAlign(deqDataSize, 128) / 128;
AscendC::DataCopyParams dataCopyParams(1, fbufBurstLen, 0, 0);
AscendC::DataCopy(fbTensor, quantAlphaTensor, dataCopyParams);
// 将 量 化 参 数 数 据 写 入 寄 存 器，供 后 续DataCopy指 令 使 用
AscendC::SetFixPipeConfig(fbTensor);
// 创 建DataCopy的 参 数, 
AscendC::DataCopyCO12DstParams intriParams;
intriParams.nSize = CeilAlign(n, CUBE_BLOCK);
intriParams.mSize = m;
intriParams.srcStride = CeilAlign(m, CUBE_BLOCK);
intriParams.dstStride = m * C0_SIZE / AscendC::ONE_BLK_SIZE; // C0_SIZE = 32
intriParams.quantPre = QuantMode_t::VDEQF16;
intriParams.reluPre = 1; // 开 启ReLU
// 根 据intriParams中 的 参 数，执 行 最 终 的 数 据 搬 运
AscendC::DataCopy(cGM, cLocal, intriParams);

结果示例如下：

Text

输 入 数 据（Fm，shape为[1, 4, 4, 32]，数 据 类 型 为int8_t）：
[[[[ 1  1  1  1  1  1  1  1  1  2  2  2  2  2  2  2  2  3  3  3  3  3  3  3  3  4  4  4  4  4  4  4]
    ...
   [12 12 13 13 13 13 13 13 13 13 14 14 14 14 14 14 14 14 15 15 15 15 15 15 15 15 16 16 16 16 16 16]]
  [[16 16 17 17 17 17 17 17 17 17 18 18 18 18 18 18 18 18 19 19 19 19 19 19 19 19 19 20 20 20 20 20]
    ...
   [28 28 28 28 29 29 29 29 29 29 29 29 30 30 30 30 30 30 30 30 31 31 31 31 31 31 31 31 32 32 32 32]]
  [[32 32 32 32 33 33 33 33 33 33 33 33 34 34 34 34 34 34 34 34 35 35 35 35 35 35 35 35 36 36 36 36]
    ...
   [44 44 44 44 44 45 45 45 45 45 45 45 45 46 46 46 46 46 46 46 46 46 47 47 47 47 47 47 47 47 48 48]]
  [[48 48 48 48 48 48 49 49 49 49 49 49 49 49 50 50 50 50 50 50 50 50 51 51 51 51 51 51 51 51 52 52]
    ...
   [60 60 60 60 60 60 60 61 61 61 61 61 61 61 61 62 62 62 62 62 62 62 62 63 63 63 63 63 63 63 63 64]]]]
输 入 数 据（Weight，shape为[1, 2, 2, 128, 32]，数 据 类 型 为int8_t）：
[[[[[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]
    ...
    [1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]]]]]
输 入 数 据（Quant，shape为[128]，数 据 类 型 为float）：
[0.1 0.01 0.1 0.01 ... 0.1 0.01 0.1 0.01]
输 出 数 据（DstL0c，shape为[8, 16, 32]，数 据 类 型 为int32_t）：
[[[1572,1572,1572,1572,1572,1572,1572,1572,1572,1572,1572,1572,1572,1572,1572,1572],
  [2078,2078,2078,2078,2078,2078,2078,2078,2078,2078,2078,2078,2078,2078,2078,2078],
  [2582,2582,2582,2582,2582,2582,2582,2582,2582,2582,2582,2582,2582,2582,2582,2582],
  [3592,3592,3592,3592,3592,3592,3592,3592,3592,3592,3592,3592,3592,3592,3592,3592],
  [4097,4097,4097,4097,4097,4097,4097,4097,4097,4097,4097,4097,4097,4097,4097,4097],
  [4602,4602,4602,4602,4602,4602,4602,4602,4602,4602,4602,4602,4602,4602,4602,4602],
  [5612,5612,5612,5612,5612,5612,5612,5612,5612,5612,5612,5612,5612,5612,5612,5612],
  [6116,6116,6116,6116,6116,6116,6116,6116,6116,6116,6116,6116,6116,6116,6116,6116],
  [6622,6622,6622,6622,6622,6622,6622,6622,6622,6622,6622,6622,6622,6622,6622,6622],
  [0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
  [0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
  [0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
  [0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
  [0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
  [0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
  [0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0]],
  ...
输 出 数 据（DstGm，shape为[8, 9, 32]，数 据 类 型 为half）：
[[157.1   15.71 157.1   15.71 157.1   15.71 157.1   15.71 157.1   15.71 157.1   15.71 157.1   15.71 157.1   15.71]
  ...
 [207.8   20.77 207.8   20.77 207.8   20.77 207.8   20.77 207.8   20.77 207.8   20.77 207.8   20.77 207.8   20.77]
  ...
 [258.2   25.81 258.2   25.81 258.2   25.81 258.2   25.81 258.2   25.81 258.2   25.81 258.2   25.81 258.2   25.81]
  ...
 [359.    35.9  359.    35.9  359.    35.9  359.    35.9  359.    35.9  359.    35.9  359.    35.9  359.    35.9 ]
  ...
 [409.5   40.94 409.5   40.94 409.5   40.94 409.5   40.94 409.5   40.94 409.5   40.94 409.5   40.94 409.5   40.94]
  ...
 [460.    46.   460.    46.   460.    46.   460.    46.   460.    46.   460.    46.   460.    46.   460.    46.  ]
  ...
 [561.    56.1  561.    56.1  561.    56.1  561.    56.1  561.    56.1  561.    56.1  561.    56.1  561.    56.1 ]
  ...
 [611.5   61.12 611.5   61.12 611.5   61.12 611.5   61.12 611.5   61.12 611.5   61.12 611.5   61.12 611.5   61.12]
  ...

针对Atlas 200I/500 A2 推理产品，随路格式转换数据搬运，通路：CO1->GM。

示例：Mmad含有矩阵乘偏置，左矩阵和右矩阵的数据类型为int8_t，结果矩阵的数据类型为int32_t。量化模式DEQF16，scalar量化参数为0.5，将Mmad计算出的结果由int32_t量化成half并搬出。

Text

#ifdef ASCENDC_CPU_DEBUG
#include "tikicpulib.h"
#endif
#include "kernel_operator.h"
#include "../../instrs/common_utils/register_utils.h"
template <typename dst_T, typename fmap_T, typename weight_T, typename dstCO1_T> class KernelCubeDataCopy{
public:
    __aicore__ inline KernelCubeDataCopy(uint16_t CoutIn, uint8_t dilationHIn, uint8_t dilationWIn, QuantMode_t deqModeIn)
    {
        // ceiling of 16
        Cout = CoutIn;
        dilationH = dilationHIn;
        dilationW = dilationWIn;
        C0 = 32 / sizeof(fmap_T);
        C1 = channelSize / C0;
        coutBlocks = (Cout + 16 - 1) / 16;
        ho = H - dilationH * (Kh - 1);
        wo = W - dilationW * (Kw - 1);
        howo = ho * wo;
        howoRound = ((howo + 16 - 1) / 16) * 16;
        featureMapA1Size = C1 * H * W * C0;      // shape: [C1, H, W, C0]
        weightA1Size = C1 * Kh * Kw * Cout * C0; // shape: [C1, Kh, Kw, Cout, C0]
        featureMapA2Size = howoRound * (C1 * Kh * Kw * C0);
        weightB2Size = (C1 * Kh * Kw * C0) * coutBlocks * 16;
        m = howo;
        k = C1 * Kh * Kw * C0;
        n = Cout;
        biasSize = Cout;                  // shape: [Cout]
        dstSize = coutBlocks * howo * 16; // shape: [coutBlocks, howo, 16]
        dstCO1Size = coutBlocks * howoRound * 16;
        fmRepeat = featureMapA2Size / (16 * C0);
        weRepeat = weightB2Size / (16 * C0);
        deqMode = deqModeIn;
    }
    __aicore__ inline void Init(__gm__ uint8_t* fmGm, __gm__ uint8_t* weGm, __gm__ uint8_t* biasGm, __gm__ uint8_t* deqGm, __gm__ uint8_t* eleWiseGm, __gm__ uint8_t* dstGm)
    {
        fmGlobal.SetGlobalBuffer((__gm__ fmap_T*)fmGm);
        weGlobal.SetGlobalBuffer((__gm__ weight_T*)weGm);
        biasGlobal.SetGlobalBuffer((__gm__ dstCO1_T*)biasGm);
        deqGlobal.SetGlobalBuffer((__gm__ uint64_t*)deqGm);
        dstGlobal.SetGlobalBuffer((__gm__ dst_T*)dstGm);
        eleWiseGlobal.SetGlobalBuffer((__gm__ half*)eleWiseGm);
        pipe.InitBuffer(inQueueFmA1, 1, featureMapA1Size * sizeof(fmap_T));
        pipe.InitBuffer(inQueueFmA2, 1, featureMapA2Size * sizeof(fmap_T));
        pipe.InitBuffer(inQueueWeB1, 1, weightA1Size * sizeof(weight_T));
        pipe.InitBuffer(inQueueWeB2, 1, weightB2Size * sizeof(weight_T));
        pipe.InitBuffer(inQueueBiasA1, 1, biasSize * sizeof(dstCO1_T));
        pipe.InitBuffer(inQueueDeqA1, 1, dstCO1Size * sizeof(uint64_t));
        pipe.InitBuffer(inQueueDeqFB, 1, dstCO1Size * sizeof(uint64_t));
        pipe.InitBuffer(outQueueCO1, 1, dstCO1Size * sizeof(dstCO1_T));
        pipe.InitBuffer(inQueueC1, 1, dstSize * sizeof(half));
    }
    __aicore__ inline void Process()
    {
        CopyIn();
        Split();
        Compute();
        CopyOut();
    }
private:
    __aicore__ inline void CopyIn()
    {
        AscendC::LocalTensor<fmap_T> featureMapA1 = inQueueFmA1.AllocTensor<fmap_T>();
        AscendC::LocalTensor<weight_T> weightB1 = inQueueWeB1.AllocTensor<weight_T>();
        AscendC::LocalTensor<dstCO1_T> biasA1 = inQueueBiasA1.AllocTensor<dstCO1_T>();
        AscendC::DataCopy(featureMapA1, fmGlobal, { 1, static_cast<uint16_t>(featureMapA1Size * sizeof(fmap_T) / 32), 0, 0 });
        AscendC::DataCopy(weightB1, weGlobal, { 1, static_cast<uint16_t>(weightA1Size * sizeof(weight_T) / 32), 0, 0 });
        AscendC::DataCopy(biasA1, biasGlobal, { 1, static_cast<uint16_t>(biasSize * sizeof(dstCO1_T) / 32), 0, 0 });
        inQueueFmA1.EnQue(featureMapA1);
        inQueueWeB1.EnQue(weightB1);
        inQueueBiasA1.EnQue(biasA1);
    }
    __aicore__ inline void Split()
    {
        AscendC::LocalTensor<fmap_T> featureMapA1 = inQueueFmA1.DeQue<fmap_T>();
        AscendC::LocalTensor<weight_T> weightB1 = inQueueWeB1.DeQue<weight_T>();
        AscendC::LocalTensor<fmap_T> featureMapA2 = inQueueFmA2.AllocTensor<fmap_T>();
        AscendC::LocalTensor<weight_T> weightB2 = inQueueWeB2.AllocTensor<weight_T>();
        uint8_t padList[] = {0, 0, 0, 0};
        // load3dv2
        AscendC::LoadData(featureMapA2, featureMapA1, { padList, H, W, channelSize, k, howoRound, 0, 0, 1, 1, Kw, Kh, dilationW, dilationH, false, false, 0 });
        // load2d
        AscendC::LoadData(weightB2, weightB1, { 0, weRepeat, 1, 0, 0, false, 0 });
        inQueueFmA2.EnQue<fmap_T>(featureMapA2);
        inQueueWeB2.EnQue<weight_T>(weightB2);
        inQueueFmA1.FreeTensor(featureMapA1);
        inQueueWeB1.FreeTensor(weightB1);
    }
    __aicore__ inline void Compute()
    {
        AscendC::LocalTensor<fmap_T> featureMapA2 = inQueueFmA2.DeQue<fmap_T>();
        AscendC::LocalTensor<weight_T> weightB2 = inQueueWeB2.DeQue<weight_T>();
        AscendC::LocalTensor<dstCO1_T> dstCO1 = outQueueCO1.AllocTensor<dstCO1_T>();
        AscendC::LocalTensor<dstCO1_T> biasA1 = inQueueBiasA1.DeQue<dstCO1_T>();
        // C = A * B + bias
        // m: 左 矩 阵Height, k: 左 矩 阵Width, n: 右 矩 阵Width
        AscendC::Mmad(dstCO1, featureMapA2, weightB2, biasA1, { m, n, k, true, 0, false, false, false });
        outQueueCO1.EnQue<dstCO1_T>(dstCO1);
        inQueueFmA2.FreeTensor(featureMapA2);
        inQueueWeB2.FreeTensor(weightB2);
    }
    __aicore__ inline void CopyOut()
    {
        AscendC::LocalTensor<dstCO1_T> dstCO1 = outQueueCO1.DeQue<dstCO1_T>();
        // 开 启DEQF16量 化，量 化 参 数 设 置 为0.5
        float tmp = (float)0.5;
        // 将float的tmp转 换 成uint64_t的deqScalar
        uint64_t deqScalar = static_cast<uint64_t>(*reinterpret_cast<int32_t*>(&tmp));
        bool nz2ndEn = false;
        // nz2nd不 开 启 时，nSize必 须 为16的 倍 数
        uint16_t nSize = coutBlocks * 16;
        uint16_t mSize = m;
        // srcStride必 须 为16的 倍 数
        uint16_t srcStride = (m + 16 - 1) / 16 * 16;
        // nz2nd不 开 启 时，dstStride为burst头 到 头 的 距 离，且 为32B对 齐
        uint32_t dstStride = m * sizeof(dst_T) * 16 / 32;
        if (nz2ndEn) {
            // nd矩 阵 的 数 量 为1，src_nd_stride与dst_nd_stride填1
            AscendC::SetFixpipeNz2ndFlag(1, 1, 1);
            // nz2nd开 启 时，nSize可 以 不 为16的 倍 数，与Mmad的n保 持 一 致
            nSize = n;
            // nz2nd开 启 时，dstStride表 示 同 一nd矩 阵 的 相 邻 连 续 行 的 间 隔，与n保 持 一 致
            dstStride = nSize;
        };
        // 不 开 启relu与channelSplit
        AscendC::DataCopyCO12DstParams intriParams(nSize, mSize, dstStride, srcStride, deqMode, 0, false, nz2ndEn);
       
        // mov l0c to gm, deq scalar quant
        AscendC::SetFixpipePreQuantFlag(deqScalar);  // 设 置 量 化 参 数
        AscendC::PipeBarrier<PIPE_FIX>();
        AscendC::DataCopy(dstGlobal, dstCO1, intriParams);
        // // mov l0c to gm, deq tensor quant
        // // 需 要 额 外 申 请deq tensor的gm空 间，将 值 搬 运 到workA1
        // AscendC::LocalTensor<uint64_t> workA1 = inQueueDeqA1.AllocTensor<uint64_t>();
        // // deq tensor的size
        // uint16_t deqSize = 128;
        // AscendC::DataCopy(workA1, deqGlobal, deqSize);
        // // deq tensor在fix上 的 地 址
        // AscendC::LocalTensor<uint64_t> deqFB = inQueueDeqFB.AllocTensor<uint64_t>();
        // // l1->fix, burst_len unit is 128Bytes
        // uint16_t fbufBurstLen = deqSize / 128;
        // AscendC::DataCopyParams dataCopyParams(1, fbufBurstLen, 0, 0);
        // AscendC::DataCopy(deqFB, workA1, dataCopyParams);
        // // 设 置 量 化tensor
        // AscendC::SetFixPipeConfig(deqFB);
        // AscendC::PipeBarrier<PIPE_FIX>();
        // // mov l0c to gm, 量 化 操 作 后 开 启ClipRelu操 作
        // intriParams.clipReluPre = 1; 
        // // 设 置clip relu的 值 到 寄 存 器
        // uint64_t clipReluVal = 0x3c00; // value 1, half
        // SetFixPipeClipRelu(clipReluVal);
        // //mov l0c to gm, 量 化 操 作 后，设 置 element-wise 操 作，Add
        // intriParams.eltWiseOp = 1;
        // // 需 要 额 外 申 请 element-wise tensor的gm空 间，将 值 搬 到eleWiseTensor
        // AscendC::LocalTensor<half> eleWiseTensor = inQueueC1.AllocTensor<half>();
        // DataCopy(eleWiseTensor, eleWiseGlobal, { 1, static_cast<uint16_t>(sizeof(half) * dst_size / 32), 0, 0 });
        // AscendC::PipeBarrier<PIPE_ALL>();
        // // 将 存 放element-wise tensor的 地 址 设 置 到 寄 存 器 里
        // SetFixPipeAddr(eleWiseTensor, 1);

        // AscendC::DataCopy(dstGlobal, dstCO1, intriParams);
        // inQueueDeqA1.FreeTensor(workA1);
        // inQueueDeqFB.FreeTensor(deqFB);
        // outQueueCO1.FreeTensor(dstCO1);
        // inQueueC1.FreeTensor(eleWiseTensor);
     }
private:
    AscendC::TPipe pipe;
    // feature map queue
    AscendC::TQue<AscendC::TPosition::A1, 1> inQueueFmA1;
    AscendC::TQue<AscendC::TPosition::A2, 1> inQueueFmA2;
    // weight queue
    AscendC::TQue<AscendC::TPosition::B1, 1> inQueueWeB1;
    AscendC::TQue<AscendC::TPosition::B2, 1> inQueueWeB2;
    // bias queue
    AscendC::TQue<AscendC::TPosition::A1, 1> inQueueBiasA1;
    // deq tensor queue
    AscendC::TQue<AscendC::TPosition::A1, 1> inQueueDeqA1;
    // fb dst of deq tensor
    AscendC::TQue<AscendC::TPosition::C2PIPE2GM, 1> inQueueDeqFB;
    // dst queue
    AscendC::TQue<AscendC::TPosition::CO1, 1> outQueueCO1;
    // element-wise tensor
    AscendC::TQue<AscendC::TPosition::C1, 1> inQueueC1;
    AscendC::GlobalTensor<fmap_T> fmGlobal;
    AscendC::GlobalTensor<weight_T> weGlobal;
    AscendC::GlobalTensor<dst_T> dstGlobal;
    AscendC::GlobalTensor<uint64_t> deqGlobal;
    AscendC::GlobalTensor<dstCO1_T> biasGlobal;
    AscendC::GlobalTensor<half> eleWiseGlobal;
    uint16_t channelSize = 32;
    uint16_t H = 4, W = 4;
    uint8_t Kh = 2, Kw = 2;
    uint16_t Cout;
    uint16_t C0, C1;
    uint8_t dilationH, dilationW;
    uint16_t coutBlocks, ho, wo, howo, howoRound;
    uint32_t featureMapA1Size, weightA1Size, featureMapA2Size, weightB2Size, biasSize, dstSize, dstCO1Size;
    uint16_t m, k, n;
    uint8_t fmRepeat, weRepeat;
    QuantMode_t deqMode = QuantMode_t::NoQuant;
};
#define KERNEL_CUBE_DATACOPY(dst_type, fmap_type, weight_type, dstCO1_type, CoutIn, dilationHIn, dilationWIn, deqModeIn)  \
    extern "C" __global__ __aicore__ void cube_datacopy_kernel_##fmap_type(__gm__ uint8_t* fmGm, __gm__ uint8_t* weGm,    \
        __gm__ uint8_t* biasGm, __gm__ uint8_t* deqGm, __gm__ uint8_t* eleWiseGm, __gm__ uint8_t* dstGm)                                             \
    {                                                                                                                     \
        if (g_coreType == AscendC::AIV) {                                                                                 \
            return;                                                                                                       \
        }                                                                                                                 \
        KernelCubeDataCopy<dst_type, fmap_type, weight_type, dstCO1_type> op(CoutIn, dilationHIn, dilationWIn,            \
            deqModeIn);                                                                                                   \
        op.Init(fmGm, weGm, biasGm, deqGm, eleWiseGm, dstGm);                                                                        \
        op.Process();                                                                                                     \
    }
KERNEL_CUBE_DATACOPY(half, int8_t, int8_t, int32_t, 128, 1, 1, QuantMode_t::DEQF16);

2.3.6.1. Layout数 据 结 构

2.3.6.2. Tensor数 据 结 构

2.3.6.3. 工 具 函 数

2.4.2.1. DataCopy

2.4.3.1. 概 述

2.4.3.2. 矩 阵 计 算 分 形 介 绍

2.4.3.3. 矩 阵 计 算 的 搬 入

2.4.3.3.4. 矩 阵 数 据 搬 入 至L1 Buffer

2.4.3.3.5. 矩 阵 数 据 搬 入 至L0 Buffer

2.4.3.3.6. 辅 助 配 置 接 口

2.4.3.4. 数 据 搬 运

2.4.3.4.2. LoadData

2.4.3.5. 矩 阵 计 算

2.4.3.5.5. 关 键 特 性 说 明

2.4.3.5.6. 寄 存 器 配 置 说 明

2.4.3.6. 矩 阵 计 算 的 搬 出

2.4.3.6.10. L1到GM数 据 搬 运

2.4.3.6.11. 关 键 特 性 说 明

2.4.3.6.12. 寄 存 器 配 置 说 明

2.4.4.1. 概 述

2.4.4.2. 矩 阵 计 算 分 形 介 绍

2.4.4.3. 矩 阵 计 算 的 搬 入

2.4.4.3.3. 矩 阵 数 据 搬 入 至L1 Buffer

2.4.4.3.4. 矩 阵 数 据 搬 入 至L0 Buffer)

2.4.4.4. Mmad计 算

2.4.4.4.2. 关 键 特 性 说 明

2.4.4.4.3. 寄 存 器 配 置 说 明

2.4.4.5. 矩 阵 计 算 的 搬 出

2.4.4.5.4. 关 键 特 性 说 明

2.4.5.2. SIMD计 算 说 明

2.4.5.2.4. 掩 码

2.4.5.3. 数 据 搬 运

2.4.5.3.1. GM与UB数 据 搬 运

2.4.5.3.2. UB与UB数 据 搬 运

2.4.5.4. 基 础 算 术

2.4.5.5. 逻 辑 计 算

2.4.5.6. 复 合 计 算

2.4.5.7. 比 较 与 选 择

2.4.5.8. 类 型 转 换

2.4.5.8.1. 寄 存 器 配 置 说 明

2.4.5.9. 归 约 计 算

2.4.5.9.8. 寄 存 器 辅 助 接 口

2.4.5.10. 数 据 排 布 转 换

2.4.5.11. 数 据 填 充

2.4.5.12. 排 序 组 合（ISASI）

2.4.5.13. 离 散 与 聚 合

2.4.5.14. 掩 码 操 作

2.4.5.15. 数 据 重 排（ISASI）

2.4.6.1. 寄 存 器 数 据 类 型

2.4.6.3. Reg数 据 搬 运

2.4.6.4. MaskReg计 算

2.4.6.5. 基 础 算 术

2.4.6.6. 逻 辑 计 算

2.4.6.7. 复 合 计 算

2.4.6.8. 比 较 与 选 择

2.4.6.9. 类 型 转 换

2.4.6.10. 归 约 计 算

2.4.6.11. 数 据 填 充

2.4.6.12. 离 散 与 聚 合

2.4.6.13. 数 据 重 排

2.4.6.14. 数 据 压 缩

2.4.6.15. 直 方 图 计 算

2.4.6.16. 索 引 操 作

2.4.6.17. 同 步 控 制

2.4.6.18. 系 统 变 量 访 问

2.4.6.19. 数 据 类 型

2.4.8.1. Pipe和Que框 架

2.4.8.1.1. TPipe

2.4.8.1.3. TBufPool

2.4.8.1.4. 自 定 义TBufPool

2.4.8.1.5. TQue

2.4.8.1.6. TSCM

2.4.8.1.7. TQueBind

2.4.8.1.8. TBuf

2.4.8.2. 临 时 空 间 管 理

2.4.8.2.1. workspace

2.4.8.3. 内 存 管 理

2.4.8.3.1. LocalMemAllocator

2.4.9.2. 核 内 同 步

2.4.9.2.3. TQueSync

2.3.6.1. Layout数据结构

2.3.6.2. Tensor数据结构

2.3.6.3. 工具函数

2.4.3.1. 概述

2.4.3.2. 矩阵计算分形介绍

2.4.3.3. 矩阵计算的搬入

2.4.3.3.4. 矩阵数据搬入至L1 Buffer

2.4.3.3.5. 矩阵数据搬入至L0 Buffer

2.4.3.3.6. 辅助配置接口

2.4.3.4. 数据搬运

2.4.3.5. 矩阵计算

2.4.3.5.5. 关键特性说明

2.4.3.5.6. 寄存器配置说明

2.4.3.6. 矩阵计算的搬出

2.4.3.6.10. L1到GM数据搬运

2.4.3.6.11. 关键特性说明

2.4.3.6.12. 寄存器配置说明

2.4.4.1. 概述

2.4.4.2. 矩阵计算分形介绍

2.4.4.3. 矩阵计算的搬入

2.4.4.3.3. 矩阵数据搬入至L1 Buffer

2.4.4.3.4. 矩阵数据搬入至L0 Buffer)

2.4.4.4. Mmad计算

2.4.4.4.2. 关键特性说明

2.4.4.4.3. 寄存器配置说明

2.4.4.5. 矩阵计算的搬出

2.4.4.5.4. 关键特性说明

2.4.5.2. SIMD计算说明

2.4.5.2.4. 掩码

2.4.5.3. 数据搬运

2.4.5.3.1. GM与UB数据搬运

2.4.5.3.2. UB与UB数据搬运

2.4.5.4. 基础算术

2.4.5.5. 逻辑计算

2.4.5.6. 复合计算

2.4.5.7. 比较与选择

2.4.5.8. 类型转换

2.4.5.8.1. 寄存器配置说明

2.4.5.9. 归约计算

2.4.5.9.8. 寄存器辅助接口

2.4.5.10. 数据排布转换

2.4.5.11. 数据填充

2.4.5.12. 排序组合（ISASI）

2.4.5.13. 离散与聚合

2.4.5.14. 掩码操作

2.4.5.15. 数据重排（ISASI）

2.4.6.1. 寄存器数据类型

2.4.6.3. Reg数据搬运

2.4.6.4. MaskReg计算

2.4.6.5. 基础算术

2.4.6.6. 逻辑计算

2.4.6.7. 复合计算

2.4.6.8. 比较与选择

2.4.6.9. 类型转换

2.4.6.10. 归约计算

2.4.6.11. 数据填充

2.4.6.12. 离散与聚合

2.4.6.13. 数据重排

2.4.6.14. 数据压缩

2.4.6.15. 直方图计算

2.4.6.16. 索引操作

2.4.6.17. 同步控制

2.4.6.18. 系统变量访问

2.4.6.19. 数据类型

2.4.8.1. Pipe和Que框架

2.4.8.1.4. 自定义TBufPool

2.4.8.2. 临时空间管理

2.4.8.3. 内存管理

2.4.9.2. 核内同步

2.4.9.3. 核间同步

2.4.9.4. 任务间同步

2.4.12.1. 上板打印

2.4.12.2. 异常检测

2.4.12.3. CPU孪生调试

2.4.12.4. 性能统计

2.4.13.1. 执行模式

2.4.13.2. 系统初始化

2.4.13.3. 数学计算

2.4.13.4. 系统资源与变量

2.6.1.1. Tanh接口