asc_copy_l12l0a_trans

产品支持情况

产品	是否支持
Atlas A3 训练系列产品/Atlas A3 推理系列产品	√
Atlas A2 训练系列产品/Atlas A2 推理系列产品	√

功能说明

该接口实现带转置的2D格式数据从L1 Buffer到L0A Buffer的加载。

下面通过示例来讲解接口功能和关键参数：下文图中一个N形或者一个Z形代表一个分形。

对于uint8_t/int8_t数据类型，每次迭代处理32 × 32 × 1B数据，可处理2个分形（一个分形512B），每次迭代中，源操作数中2个连续的16 × 32分形将被合并为1个32 × 32的方块矩阵，基于方块矩阵做转置，转置后分裂为2个16 × 32分形，根据目的操作数分形间隔等参数可以有不同的排布。

如下图示例：

共处理3072B的数据，每次迭代处理32 × 32 × 1B数据，需要3次迭代可以完成，repeat_time = 3；
src_stride = 1，表示相邻迭代间，源操作数前一个方块矩阵与后一个方块矩阵起始地址的间隔为1（单位：32 × 32 × 1B），这里的单位实际上是拼接后的方块矩阵的大小；
dst_gap = 1，表示相邻迭代间，目的操作数前一个迭代第一个分形的结束地址到下一个迭代第一个分形起始地址的间隔为1（单位：512B）；
dst_frac_gap = 0，表示每个迭代内目的操作数前一个分形的结束地址与后一个分形起始地址的间隔为0（单位：512B）。

如下图示例：

repeat_time和src_stride的解释和上图示例一致。
dst_gap = 0，表示相邻迭代间，目的操作数前一个迭代第一个分形的结束地址和下一个迭代第一个分形起始地址无间隔。
dst_frac_gap = 2，表示每个迭代内目的操作数前一个分形的结束地址与后一个分形起始地址的间隔为2（单位：512B）。

对于half/bfloat16_t数据类型，每次迭代处理16 × 16 × 2B数据，可处理1个分形（一个分形512B），每次迭代中，源操作数中1个16 × 16分形将被转置。
- 因为每次迭代处理16 × 16 × 2B数据，需要3次迭代可以完成，repeat_time = 3；
- src_stride = 1，表示相邻迭代间，源操作数前一个方块矩阵与后一个方块矩阵起始地址的间隔为1 （单位：16 × 16 × 2B）；
- dst_gap = 0，表示相邻迭代间，目的操作数前一个迭代第一个分形的结束地址到下一个迭代第一个分形起始地址无间隔；
- 该场景下，因为其分形即为方块矩阵，每个迭代处理一个分形，不存在迭代内分形的间隔，该参数设置无效。

对于float/int32_t/uint32_t数据类型，每次迭代处理16 × 16 × 4B数据，可处理2个分形（一个分形512B），每次迭代中，源操作数2个连续的16 × 8分形将被合并为1个16 × 16的方块矩阵，基于方块矩阵做转置，转置后分裂为2个16 × 8分形，根据目的操作数分形间隔等参数可以有不同的排布。如下图示例：
- 因为每次迭代处理16 × 16 × 4B数据，需要3次迭代可以完成，repeat_time = 3；
- src_stride = 1，表示相邻迭代间，源操作数前一个方块矩阵与后一个方块矩阵起始地址的间隔为1（单位：16 × 16 × 4B），这里的单位实际上是拼接后的方块矩阵的大小；
- dst_gap = 1，表示相邻迭代间，目的操作数前一个迭代第一个分形的结束地址到下一个迭代第一个分形起始地址的间隔为1（单位：512B）；
- dst_frac_gap = 0，表示每个迭代内目的操作数前一个分形结束地址与后一个分形起始地址的间隔为0（单位：512B）。

如下图示例：

repeat_time和src_stride的解释和上图示例一致。
dst_gap = 0，表示相邻迭代间，目的操作数前一个迭代第一个分形的结束地址和下一个迭代第一个分形起始地址无间隔。
dst_frac_gap = 2，表示每个迭代内目的操作数前一个分形结束地址与后一个分形起始地址的间隔为2（单位：512B）。

函数原型

高维切分搬运

C++

__aicore__ inline void asc_copy_l12l0a_trans(__ca__ uint8_t* dst, __cbuf__ uint8_t* src, uint16_t index_id, uint8_t repeat, uint16_t src_stride, uint16_t dst_gap, bool addrmode, uint16_t dst_frac_gap)
__aicore__ inline void asc_copy_l12l0a_trans(__ca__ int8_t* dst, __cbuf__ int8_t* src, uint16_t index_id, uint8_t repeat, uint16_t src_stride, uint16_t dst_gap, bool addrmode, uint16_t dst_frac_gap)
__aicore__ inline void asc_copy_l12l0a_trans(__ca__ half* dst, __cbuf__ half* src, uint16_t index_id, uint8_t repeat, uint16_t src_stride, uint16_t dst_gap, bool addrmode, uint16_t dst_frac_gap)
__aicore__ inline void asc_copy_l12l0a_trans(__ca__ bfloat16_t* dst, __cbuf__ bfloat16_t* src, uint16_t index_id, uint8_t repeat, uint16_t src_stride, uint16_t dst_gap, bool addrmode, uint16_t dst_frac_gap)
__aicore__ inline void asc_copy_l12l0a_trans(__ca__ uint32_t* dst, __cbuf__ uint32_t* src, uint16_t index_id, uint8_t repeat, uint16_t src_stride, uint16_t dst_gap, bool addrmode, uint16_t dst_frac_gap)
__aicore__ inline void asc_copy_l12l0a_trans(__ca__ int32_t* dst, __cbuf__ int32_t* src, uint16_t index_id, uint8_t repeat, uint16_t src_stride, uint16_t dst_gap, bool addrmode, uint16_t dst_frac_gap)
__aicore__ inline void asc_copy_l12l0a_trans(__ca__ float* dst, __cbuf__ float* src, uint16_t index_id, uint8_t repeat, uint16_t src_stride, uint16_t dst_gap, bool addrmode, uint16_t dst_frac_gap)

同步高维切分搬运

C++

__aicore__ inline void asc_copy_l12l0a_trans_sync(__ca__ uint8_t* dst, __cbuf__ uint8_t* src, uint16_t index_id, uint8_t repeat, uint16_t src_stride, uint16_t dst_gap, bool addrmode, uint16_t dst_frac_gap)
__aicore__ inline void asc_copy_l12l0a_trans_sync(__ca__ int8_t* dst, __cbuf__ int8_t* src, uint16_t index_id, uint8_t repeat, uint16_t src_stride, uint16_t dst_gap, bool addrmode, uint16_t dst_frac_gap)
__aicore__ inline void asc_copy_l12l0a_trans_sync(__ca__ half* dst, __cbuf__ half* src, uint16_t index_id, uint8_t repeat, uint16_t src_stride, uint16_t dst_gap, bool addrmode, uint16_t dst_frac_gap)
__aicore__ inline void asc_copy_l12l0a_trans_sync(__ca__ bfloat16_t* dst, __cbuf__ bfloat16_t* src, uint16_t index_id, uint8_t repeat, uint16_t src_stride, uint16_t dst_gap, bool addrmode, uint16_t dst_frac_gap)
__aicore__ inline void asc_copy_l12l0a_trans_sync(__ca__ uint32_t* dst, __cbuf__ uint32_t* src, uint16_t index_id, uint8_t repeat, uint16_t src_stride, uint16_t dst_gap, bool addrmode, uint16_t dst_frac_gap)
__aicore__ inline void asc_copy_l12l0a_trans_sync(__ca__ int32_t* dst, __cbuf__ int32_t* src, uint16_t index_id, uint8_t repeat, uint16_t src_stride, uint16_t dst_gap, bool addrmode, uint16_t dst_frac_gap)
__aicore__ inline void asc_copy_l12l0a_trans_sync(__ca__ float* dst, __cbuf__ float* src, uint16_t index_id, uint8_t repeat, uint16_t src_stride, uint16_t dst_gap, bool addrmode, uint16_t dst_frac_gap)

参数说明

参数名	输入/输出	描述
dst	输出	目的操作数。
src	输入	源操作数。
index_id	输入	方块矩阵的ID，搬运起始位置为源操作数中第几个方块矩阵（0为源操作数中第1个方块矩阵）。取值范围：index_id∈[0, 65535]。
repeat	输入	迭代重复次数。repeat∈[0, 255]。对于uint8_t/int8_t数据类型，每次迭代处理32 × 32 × 1B数据；对于half/bfloat16_t数据类型，每次迭代处理16 × 16 × 2B数据；对于float/int32_t/uint32_t数据类型，每次迭代处理16 × 16 × 4B数据。
src_stride	输入	表示相邻迭代间，源操作数前一个方块矩阵与后一个方块矩阵起始地址的间隔，单位：（1024B）。取值范围：src_stride∈[0, 65535]。对于uint8_t/int8_t数据类型，单位是32 × 32 × 1B；对于half/bfloat16_t数据类型，单位是16 × 16 × 2B；对于float/int32_t/uint32_t数据类型，单位是16 × 16 × 4B；对于int4b_t数据类型，每次迭代处理16 × 64 × 0.5B数据。
dst_gap	输入	表示相邻迭代间，目的操作数前一个迭代第一个分形的结束地址到下一个迭代第一个分形起始地址的间隔。取值范围：dst_gap∈[0, 65535]。
addrmode	输入	控制地址更新方式。 false: 递增，每次迭代在前一个地址的基础上加上src_stride。 true: 递减，每次迭代在前一个地址的基础上减去src_stride。
dst_frac_gap	输入	每个迭代内目的操作数转置前一个分形结束地址与后一个分形起始地址的间隔，单位为512B，仅在数据类型为float/int32_t/uint32_t/uint8_t/int8_t时有效。

返回值说明

无

流水类型

PIPE_MTE1

约束说明

repeat=0表示不执行搬运操作。
开发者需要保证目的操作数转置后的分形没有重叠。

调用示例

C++

// 设 置 源 操 作 数 和 目 的 操 作 数，total_length指 参 与 计 算 的 数 据 长 度
constexpr uint64_t total_length = 512;
__cbuf__ int32_t src[total_length];
__cb__ int32_t dst[total_length];

// 设 置 搬 运 过 程 中 的 配 置
uint8_t n = 64;
uint8_t nBlockSize = 32;
uint8_t repeat = n / nBlockSize;
uint16_t index_id = 0;
uint16_t src_stride = 1;
uint16_t dst_gap = 1;
bool addrmode = false;
uint64_t dst_frac_gap = 0;

// 搬 运 过 程
asc_copy_l12l0a_trans(dst, src, index_id, repeat, src_stride, dst_gap, addrmode, dst_frac_gap);

2.3.1.3. LocalTensor和GlobalTensor定 义

2.3.1.3.1. LocalTensor

2.3.1.3.2. GlobalTensor

2.3.1.4. Tensor API基 础 数 据 结 构

2.3.1.4.1. Layout数 据 结 构

2.3.1.4.2. Tensor数 据 结 构

2.3.1.4.3. 工 具 函 数

2.3.1.5. 辅 助 数 据 结 构

2.3.1.5.1. Coordinate

2.3.1.5.2. Layout

2.3.1.5.3. TensorTrait

2.3.1.5.6. TensorDesc

2.3.2.1. 概 览

2.3.3.1. 概 述

2.3.3.2. 矩 阵 计 算 分 形 介 绍

2.3.3.3. 矩 阵 计 算 的 搬 入

2.3.3.3.4. 矩 阵 数 据 搬 入 至L0-Buffer

2.3.3.3.5. 矩 阵 数 据 搬 入 至L1-Buffer

2.3.3.3.6. 辅 助 配 置 接 口

2.3.3.4. Mmad计 算

2.3.3.4.5. 关 键 特 性 说 明

2.3.3.4.6. 寄 存 器 配 置 说 明

2.3.3.5. 矩 阵 计 算 的 搬 出

2.3.3.5.10. L1到GM数 据 搬 运

2.3.3.5.11. 关 键 特 性 说 明

2.3.3.5.12. 寄 存 器 配 置 说 明

2.3.4.1. 概 述

2.3.4.2. 矩 阵 计 算 分 形 介 绍

2.3.4.3. 矩 阵 计 算 的 搬 入

2.3.4.3.3. 矩 阵 数 据 搬 入 至L1 Buffer

2.3.4.3.4. 矩 阵 数 据 搬 入 至L0 Buffer)

2.3.4.4. Mmad计 算

2.3.4.4.2. 关 键 特 性 说 明

2.3.4.4.3. 寄 存 器 配 置 说 明

2.3.4.5. 矩 阵 计 算 的 搬 出

2.3.4.5.4. 关 键 特 性 说 明

2.3.5.2. SIMD计 算 说 明

2.3.5.2.4. 掩 码

2.3.5.3. 数 据 搬 运

2.3.5.3.1. GM与UB数 据 搬 运

2.3.5.3.2. UB与UB数 据 搬 运

2.3.5.4. 基 础 算 术

2.3.5.5. 逻 辑 计 算

2.3.5.6. 复 合 计 算

2.3.5.7. 比 较 与 选 择

2.3.5.8. 类 型 转 换

2.3.5.8.1. 寄 存 器 配 置 说 明

2.3.5.9. 归 约 计 算

2.3.5.9.8. 寄 存 器 辅 助 接 口

2.3.5.10. 数 据 排 布 转 换

2.3.5.11. 数 据 填 充

2.3.5.12. 排 序 组 合（ISASI）

2.3.5.13. 离 散 与 聚 合

2.3.5.14. 掩 码 操 作

2.3.5.15. 数 据 重 排（ISASI）

2.3.6.1. 寄 存 器 数 据 类 型

2.3.6.3. Reg数 据 搬 运

2.3.6.4. MaskReg计 算

2.3.6.5. 基 础 算 术

2.3.6.6. 逻 辑 计 算

2.3.6.7. 复 合 计 算

2.3.6.8. 比 较 与 选 择

2.3.6.9. 类 型 转 换

2.3.6.10. 归 约 计 算

2.3.6.11. 数 据 填 充

2.3.6.12. 离 散 与 聚 合

2.3.6.13. 数 据 重 排

2.3.6.14. 数 据 压 缩

2.3.6.15. 直 方 图 计 算

2.3.6.16. 索 引 操 作

2.3.6.17. 同 步 控 制

2.3.6.18. 系 统 变 量 访 问

2.3.6.19. 数 据 类 型

2.3.8.1. Pipe和Que框 架

2.3.8.1.1. TPipe

2.3.8.1.3. TBufPool

2.3.8.1.4. 自 定 义TBufPool

2.3.8.1.5. TQue

2.3.8.1.6. TSCM

2.3.8.1.7. TQueBind

2.3.1.3. LocalTensor和GlobalTensor定义

2.3.1.4. Tensor API基础数据结构

2.3.1.4.1. Layout数据结构

2.3.1.4.2. Tensor数据结构

2.3.1.4.3. 工具函数

2.3.1.5. 辅助数据结构

2.3.2.1. 概览

2.3.3.1. 概述

2.3.3.2. 矩阵计算分形介绍

2.3.3.3. 矩阵计算的搬入

2.3.3.3.4. 矩阵数据搬入至L0-Buffer

2.3.3.3.5. 矩阵数据搬入至L1-Buffer

2.3.3.3.6. 辅助配置接口

2.3.3.4. Mmad计算

2.3.3.4.5. 关键特性说明

2.3.3.4.6. 寄存器配置说明

2.3.3.5. 矩阵计算的搬出

2.3.3.5.10. L1到GM数据搬运

2.3.3.5.11. 关键特性说明

2.3.3.5.12. 寄存器配置说明

2.3.4.1. 概述

2.3.4.2. 矩阵计算分形介绍

2.3.4.3. 矩阵计算的搬入

2.3.4.3.3. 矩阵数据搬入至L1 Buffer

2.3.4.3.4. 矩阵数据搬入至L0 Buffer)

2.3.4.4. Mmad计算

2.3.4.4.2. 关键特性说明

2.3.4.4.3. 寄存器配置说明

2.3.4.5. 矩阵计算的搬出

2.3.4.5.4. 关键特性说明

2.3.5.2. SIMD计算说明

2.3.5.2.4. 掩码

2.3.5.3. 数据搬运

2.3.5.3.1. GM与UB数据搬运

2.3.5.3.2. UB与UB数据搬运

2.3.5.4. 基础算术

2.3.5.5. 逻辑计算

2.3.5.6. 复合计算

2.3.5.7. 比较与选择

2.3.5.8. 类型转换

2.3.5.8.1. 寄存器配置说明

2.3.5.9. 归约计算

2.3.5.9.8. 寄存器辅助接口

2.3.5.10. 数据排布转换

2.3.5.11. 数据填充

2.3.5.12. 排序组合（ISASI）

2.3.5.13. 离散与聚合

2.3.5.14. 掩码操作

2.3.5.15. 数据重排（ISASI）

2.3.6.1. 寄存器数据类型

2.3.6.3. Reg数据搬运

2.3.6.4. MaskReg计算

2.3.6.5. 基础算术

2.3.6.6. 逻辑计算

2.3.6.7. 复合计算

2.3.6.8. 比较与选择

2.3.6.9. 类型转换

2.3.6.10. 归约计算

2.3.6.11. 数据填充

2.3.6.12. 离散与聚合

2.3.6.13. 数据重排

2.3.6.14. 数据压缩

2.3.6.15. 直方图计算

2.3.6.16. 索引操作

2.3.6.17. 同步控制

2.3.6.18. 系统变量访问

2.3.6.19. 数据类型

2.3.8.1. Pipe和Que框架

2.3.8.1.4. 自定义TBufPool

2.3.8.2. 临时空间管理

2.3.8.3. 内存管理

2.3.9.2. 核内同步

2.3.9.3. 核间同步

2.3.9.4. 任务间同步

2.3.12.1. 上板打印

2.3.12.2. 异常检测

2.3.12.3. CPU孪生调试

2.3.12.4. 性能统计

2.3.13.1. 执行模式

2.3.13.2. 系统初始化