asc_copy_l12l0a

产品支持情况

产品	是否支持
Atlas A3 训练系列产品/Atlas A3 推理系列产品	√
Atlas A2 训练系列产品/Atlas A2 推理系列产品	√

功能说明

用于搬运存放在L1 Buffer里的512B大小的矩阵到L0A Buffer里。包含2D格式搬运、3D格式搬运。

函数原型

高维切分搬运2D格式

C++

__aicore__ inline void asc_copy_l12l0a(__ca__ int4b_t* dst, __cbuf__ int4b_t* src, uint16_t start_index, uint8_t repeat, uint16_t src_stride, uint16_t dst_gap)
__aicore__ inline void asc_copy_l12l0a(__ca__ uint8_t* dst, __cbuf__ uint8_t* src, uint16_t start_index, uint8_t repeat, uint16_t src_stride, uint16_t dst_gap)
__aicore__ inline void asc_copy_l12l0a(__ca__ int8_t* dst, __cbuf__ int8_t* src, uint16_t start_index, uint8_t repeat, uint16_t src_stride, uint16_t dst_gap)
__aicore__ inline void asc_copy_l12l0a(__ca__ half* dst, __cbuf__ half* src, uint16_t start_index, uint8_t repeat, uint16_t src_stride, uint16_t dst_gap)
__aicore__ inline void asc_copy_l12l0a(__ca__ bfloat16_t* dst, __cbuf__ bfloat16_t* src, uint16_t start_index, uint8_t repeat, uint16_t src_stride, uint16_t dst_gap)
__aicore__ inline void asc_copy_l12l0a(__ca__ uint32_t* dst, __cbuf__ uint32_t* src, uint16_t start_index, uint8_t repeat, uint16_t src_stride, uint16_t dst_gap)
__aicore__ inline void asc_copy_l12l0a(__ca__ int32_t* dst, __cbuf__ int32_t* src, uint16_t start_index, uint8_t repeat, uint16_t src_stride, uint16_t dst_gap)
__aicore__ inline void asc_copy_l12l0a(__ca__ float* dst, __cbuf__ float* src, uint16_t start_index, uint8_t repeat, uint16_t src_stride, uint16_t dst_gap)

同步高维切分搬运2D格式

C++

__aicore__ inline void asc_copy_l12l0a_sync(__ca__ int4b_t* dst, __cbuf__ int4b_t* src, uint16_t start_index, uint8_t repeat, uint16_t src_stride, uint16_t dst_gap)
__aicore__ inline void asc_copy_l12l0a_sync(__ca__ uint8_t* dst, __cbuf__ uint8_t* src, uint16_t start_index, uint8_t repeat, uint16_t src_stride, uint16_t dst_gap)
__aicore__ inline void asc_copy_l12l0a_sync(__ca__ int8_t* dst, __cbuf__ int8_t* src, uint16_t start_index, uint8_t repeat, uint16_t src_stride, uint16_t dst_gap)
__aicore__ inline void asc_copy_l12l0a_sync(__ca__ half* dst, __cbuf__ half* src, uint16_t start_index, uint8_t repeat, uint16_t src_stride, uint16_t dst_gap)
__aicore__ inline void asc_copy_l12l0a_sync(__ca__ bfloat16_t* dst, __cbuf__ bfloat16_t* src, uint16_t start_index, uint8_t repeat, uint16_t src_stride, uint16_t dst_gap)
__aicore__ inline void asc_copy_l12l0a_sync(__ca__ uint32_t* dst, __cbuf__ uint32_t* src, uint16_t start_index, uint8_t repeat, uint16_t src_stride, uint16_t dst_gap)
__aicore__ inline void asc_copy_l12l0a_sync(__ca__ int32_t* dst, __cbuf__ int32_t* src, uint16_t start_index, uint8_t repeat, uint16_t src_stride, uint16_t dst_gap)
__aicore__ inline void asc_copy_l12l0a_sync(__ca__ float* dst, __cbuf__ float* src, uint16_t start_index, uint8_t repeat, uint16_t src_stride, uint16_t dst_gap)

高维切分搬运3D格式

C++

__aicore__ inline void asc_copy_l12l0a(__ca__ int4b_t* dst, __cbuf__ int4b_t* src, uint16_t k_extension, uint16_t m_extension, uint16_t k_start_pt, uint16_t m_start_pt, uint8_t stride_w, uint8_t stride_h, uint8_t filter_w, uint8_t filter_h, uint8_t dilation_filter_w, uint8_t dilation_filter_h, bool filter_size_w, bool filter_size_h, bool transpose, bool f_matrix_ctrl, uint16_t channel_size)
__aicore__ inline void asc_copy_l12l0a(__ca__ uint8_t* dst, __cbuf__ uint8_t* src, uint16_t k_extension, uint16_t m_extension, uint16_t k_start_pt, uint16_t m_start_pt, uint8_t stride_w, uint8_t stride_h, uint8_t filter_w, uint8_t filter_h, uint8_t dilation_filter_w, uint8_t dilation_filter_h, bool filter_size_w, bool filter_size_h, bool transpose, bool f_matrix_ctrl, uint16_t channel_size)
__aicore__ inline void asc_copy_l12l0a(__ca__ int8_t* dst, __cbuf__ int8_t* src, uint16_t k_extension, uint16_t m_extension, uint16_t k_start_pt, uint16_t m_start_pt, uint8_t stride_w, uint8_t stride_h, uint8_t filter_w, uint8_t filter_h, uint8_t dilation_filter_w, uint8_t dilation_filter_h, bool filter_size_w, bool filter_size_h, bool transpose, bool f_matrix_ctrl, uint16_t channel_size)
__aicore__ inline void asc_copy_l12l0a(__ca__ half* dst, __cbuf__ half* src, uint16_t k_extension, uint16_t m_extension, uint16_t k_start_pt, uint16_t m_start_pt, uint8_t stride_w, uint8_t stride_h, uint8_t filter_w, uint8_t filter_h, uint8_t dilation_filter_w, uint8_t dilation_filter_h, bool filter_size_w, bool filter_size_h, bool transpose, bool f_matrix_ctrl, uint16_t channel_size)
__aicore__ inline void asc_copy_l12l0a(__ca__ bfloat16_t* dst, __cbuf__ bfloat16_t* src, uint16_t k_extension, uint16_t m_extension, uint16_t k_start_pt, uint16_t m_start_pt, uint8_t stride_w, uint8_t stride_h, uint8_t filter_w, uint8_t filter_h, uint8_t dilation_filter_w, uint8_t dilation_filter_h, bool filter_size_w, bool filter_size_h, bool transpose, bool f_matrix_ctrl, uint16_t channel_size)
__aicore__ inline void asc_copy_l12l0a(__ca__ uint32_t* dst, __cbuf__ uint32_t* src, uint16_t k_extension, uint16_t m_extension, uint16_t k_start_pt, uint16_t m_start_pt, uint8_t stride_w, uint8_t stride_h, uint8_t filter_w, uint8_t filter_h, uint8_t dilation_filter_w, uint8_t dilation_filter_h, bool filter_size_w, bool filter_size_h, bool transpose, bool f_matrix_ctrl, uint16_t channel_size)
__aicore__ inline void asc_copy_l12l0a(__ca__ int32_t* dst, __cbuf__ int32_t* src, uint16_t k_extension, uint16_t m_extension, uint16_t k_start_pt, uint16_t m_start_pt, uint8_t stride_w, uint8_t stride_h, uint8_t filter_w, uint8_t filter_h, uint8_t dilation_filter_w, uint8_t dilation_filter_h, bool filter_size_w, bool filter_size_h, bool transpose, bool f_matrix_ctrl, uint16_t channel_size)
__aicore__ inline void asc_copy_l12l0a(__ca__ float* dst, __cbuf__ float* src, uint16_t k_extension, uint16_t m_extension, uint16_t k_start_pt, uint16_t m_start_pt, uint8_t stride_w, uint8_t stride_h, uint8_t filter_w, uint8_t filter_h, uint8_t dilation_filter_w, uint8_t dilation_filter_h, bool filter_size_w, bool filter_size_h, bool transpose, bool f_matrix_ctrl, uint16_t channel_size)

同步高维切分搬运3D格式

C++

__aicore__ inline void asc_copy_l12l0a_sync(__ca__ int4b_t* dst, __cbuf__ int4b_t* src, uint16_t k_extension, uint16_t m_extension, uint16_t k_start_pt, uint16_t m_start_pt, uint8_t stride_w, uint8_t stride_h, uint8_t filter_w, uint8_t filter_h, uint8_t dilation_filter_w, uint8_t dilation_filter_h, bool filter_size_w, bool filter_size_h, bool transpose, bool f_matrix_ctrl, uint16_t channel_size)
__aicore__ inline void asc_copy_l12l0a_sync(__ca__ uint8_t* dst, __cbuf__ uint8_t* src, uint16_t k_extension, uint16_t m_extension, uint16_t k_start_pt, uint16_t m_start_pt, uint8_t stride_w, uint8_t stride_h, uint8_t filter_w, uint8_t filter_h, uint8_t dilation_filter_w, uint8_t dilation_filter_h, bool filter_size_w, bool filter_size_h, bool transpose, bool f_matrix_ctrl, uint16_t channel_size)
__aicore__ inline void asc_copy_l12l0a_sync(__ca__ int8_t* dst, __cbuf__ int8_t* src, uint16_t k_extension, uint16_t m_extension, uint16_t k_start_pt, uint16_t m_start_pt, uint8_t stride_w, uint8_t stride_h, uint8_t filter_w, uint8_t filter_h, uint8_t dilation_filter_w, uint8_t dilation_filter_h, bool filter_size_w, bool filter_size_h, bool transpose, bool f_matrix_ctrl, uint16_t channel_size)
__aicore__ inline void asc_copy_l12l0a_sync(__ca__ half* dst, __cbuf__ half* src, uint16_t k_extension, uint16_t m_extension, uint16_t k_start_pt, uint16_t m_start_pt, uint8_t stride_w, uint8_t stride_h, uint8_t filter_w, uint8_t filter_h, uint8_t dilation_filter_w, uint8_t dilation_filter_h, bool filter_size_w, bool filter_size_h, bool transpose, bool f_matrix_ctrl, uint16_t channel_size)
__aicore__ inline void asc_copy_l12l0a_sync(__ca__ bfloat16_t* dst, __cbuf__ bfloat16_t* src, uint16_t k_extension, uint16_t m_extension, uint16_t k_start_pt, uint16_t m_start_pt, uint8_t stride_w, uint8_t stride_h, uint8_t filter_w, uint8_t filter_h, uint8_t dilation_filter_w, uint8_t dilation_filter_h, bool filter_size_w, bool filter_size_h, bool transpose, bool f_matrix_ctrl, uint16_t channel_size)
__aicore__ inline void asc_copy_l12l0a_sync(__ca__ uint32_t* dst, __cbuf__ uint32_t* src, uint16_t k_extension, uint16_t m_extension, uint16_t k_start_pt, uint16_t m_start_pt, uint8_t stride_w, uint8_t stride_h, uint8_t filter_w, uint8_t filter_h, uint8_t dilation_filter_w, uint8_t dilation_filter_h, bool filter_size_w, bool filter_size_h, bool transpose, bool f_matrix_ctrl, uint16_t channel_size)
__aicore__ inline void asc_copy_l12l0a_sync(__ca__ int32_t* dst, __cbuf__ int32_t* src, uint16_t k_extension, uint16_t m_extension, uint16_t k_start_pt, uint16_t m_start_pt, uint8_t stride_w, uint8_t stride_h, uint8_t filter_w, uint8_t filter_h, uint8_t dilation_filter_w, uint8_t dilation_filter_h, bool filter_size_w, bool filter_size_h, bool transpose, bool f_matrix_ctrl, uint16_t channel_size)
__aicore__ inline void asc_copy_l12l0a_sync(__ca__ float* dst, __cbuf__ float* src, uint16_t k_extension, uint16_t m_extension, uint16_t k_start_pt, uint16_t m_start_pt, uint8_t stride_w, uint8_t stride_h, uint8_t filter_w, uint8_t filter_h, uint8_t dilation_filter_w, uint8_t dilation_filter_h, bool filter_size_w, bool filter_size_h, bool transpose, bool f_matrix_ctrl, uint16_t channel_size)

参数说明

表1 2D格式参数说明

参数名	输入/输出	描述
dst	输出	目的L0A Buffer地址。
src	输入	源L1 Buffer地址。
start_index	输入	分形矩阵ID，说明搬运起始位置为源操作数中第几个分形（0为源操作数中第1个分形矩阵）。取值范围：[0, 65535]。单位为512字节。
repeat	输入	迭代次数，每个迭代可以处理512B数据。取值范围：[1, 255]。
src_stride	输入	相邻迭代间，源操作数前一个分形与后一个分型起始地址的间隔。取值范围：[0, 65535]。单位为512字节。
dst_gap	输入	目的操作数相邻连续数据块的间隔（前面一个数据块的尾与后面一个数据块的头的间隔）。取值范围：[0, 65535]。单位为512字节。

表2 3D格式参数说明

参数名	输入/输出	描述
dst	输出	目的L0A Buffer地址。
src	输入	源L1 Buffer地址。
k_extension	输入	该指令在目的操作数width维度的传输长度。如果不覆盖最右侧的分形，对于half类型，应为16的倍数，对于int8_t/uint8_t类型，应为32的倍数；如果覆盖最右侧的分形，则无倍数要求。取值范围：[1, 65535]。
m_extension	输入	该指令在目的操作数height维度的传输长度。如果不覆盖最下侧的分形，对于half/int8_t/uint8_t类型，应为16的倍数；如果覆盖最下侧的分形，则无倍数要求。取值范围：[1, 65535]。
k_start_pt	输入	该指令在目的操作数width维度的起点。对于half类型，应为16的倍数，对于int8_t/uint8_t类型，应为32的倍数。取值范围：[0, 65535]
m_start_pt	输入	该指令在目的操作数height维度的起点，如果不覆盖最下侧的分形，对于half/int8_t/uint8_t，应为16的倍数；如果覆盖最下侧的分形，则无倍数要求。取值范围：[0, 65535]。
stride_w	输入	卷积核在源操作数width维度滑动的步长，取值范围：[1, 63]。
stride_h	输入	卷积核在源操作数height维度滑动的步长，取值范围：[1, 63]。
filter_w	输入	卷积核width，取值范围：[1, 255]。
filter_h	输入	卷积核height，取值范围：[1, 255]。
dilation_filter_w	输入	卷积核width膨胀系数，取值范围：[1, 255]。
dilation_filter_h	输入	卷积核height膨胀系数，取值范围：[1, 255]。
filter_size_w	输入	是否在filter_w的基础上将卷积核width增加256个元素。true表示增加；false表示不增加。
filter_size_h	输入	是否在filter_h的基础上将卷积核height增加256个元素。true表示增加；false表示不增加。
transpose	输入	是否启用转置功能，对整个目标矩阵进行转置，仅在源操作数为half类型时有效。true表示启用；false表示不启用。
f_matrix_ctrl	输入	表示asc_copy_l12l0a指令从左矩阵还是右矩阵获取FeatureMap的属性描述，当前只支持设置为false。
channel_size	输入	源操作数的通道数，取值范围：[1, 63]。对于uint32_t/int32_t/float，channelSize可取值为4，N * 8，N * 8 + 4；对于half/bfloat16，channelSize可取值为4，8，N * 16，N * 16 + 4，N * 16 + 8；对于int8_t/uint8_t，channelSize可取值为4，8，16， 32 * N，N * 32 + 4，N * 32 + 8，N * 32 + 16；对于int4b_t，ChannelSize可取值为8，16，32，N * 64，N * 64 + 8，N * 64 + 16，N * 64 + 32。N为正整数。

返回值说明

无

流水类型

PIPE_MTE1

约束说明

dst的起始地址需要512字节对齐，src的起始地址需要32字节对齐。
本接口不支持2D格式搬运的转置场景。

3D数据格式说明

要求输入的feature map和filter的格式是NC1HWC0，其中C0是最低维度而且C0是固定值为16（对于u8/s8类型为32），C1=C/C0。

为了简化场景，以下场景假设输入的feature map的channel为4，即Ci=4。输入feature maps 在A1中的形状为(Hi,Wi,Ci)，经过load3dv1处理后在A2 的数据形状为(WoHo, HkWk*Ci)。其中Wo和Ho是卷积后输出的shape，Hk和Wk是filter的shape。

直观的来看，img2col的过程就是filter在feature map上扫过，将对应feature map的数据展开成输出数据的每一行的过程。filter首先在W方向上滑动Wo步，然后在H方向上走一步然后重复以上过程，最终输出Wo * Ho行数据。下图中红色和黄色的数据分别代表第一行和第二行。数字表示原始输入数据，filter和输出数据三者之间的关联关系。可以看到，load3dv1首先在输入数据的Ci维度搬运对应于00的4个数，然后搬运对应于01的四个数，最终这一行的大小为HkWkCi即334=36个数。

对应的feature map格式如下图：

对应的filter的格式如下图：

其中n为filter的个数，可以看出维度排布为(Hk,Wk,Ci,n)，但是需要注意的是下图的格式还需要根据Mmad中B矩阵的格式转换。

实际操作中，由于存储空间或者计算能力限制，我们通常会将整个卷积计算分块，一次只搬运并计算一小块数据。

对于A2 的feature map来说有两种方案，水平分块和垂直分块。分别对应参数中repeatMode的0和1。

注：下图中的分形矩阵大小为4x4，实际应该为16x16 (对于u8/s8类型为16x32)

repeatMode =0时，每次repeat会改变在filter窗口中读取数据点的位置，然后跳到下一个C0的位置。

repeatMode =1的时候filter窗口中读取数据的位置保持不变，每个repeat在feature map中前进C0个元素。

调用示例

C++

__cbuf__ half src[256];
__ca__ half dst[256];
asc_copy_l12l0a(dst, src, 1, 1, 1, 0);

2.3.1.3. LocalTensor和GlobalTensor定 义

2.3.1.3.1. LocalTensor

2.3.1.3.2. GlobalTensor

2.3.1.4. Tensor API基 础 数 据 结 构

2.3.1.4.1. Layout数 据 结 构

2.3.1.4.2. Tensor数 据 结 构

2.3.1.4.3. 工 具 函 数

2.3.1.5. 辅 助 数 据 结 构

2.3.1.5.1. Coordinate

2.3.1.5.2. Layout

2.3.1.5.3. TensorTrait

2.3.1.5.6. TensorDesc

2.3.2.1. 概 览

2.3.3.1. 概 述

2.3.3.2. 矩 阵 计 算 分 形 介 绍

2.3.3.3. 矩 阵 计 算 的 搬 入

2.3.3.3.4. 矩 阵 数 据 搬 入 至L0-Buffer

2.3.3.3.5. 矩 阵 数 据 搬 入 至L1-Buffer

2.3.3.3.6. 辅 助 配 置 接 口

2.3.3.4. Mmad计 算

2.3.3.4.5. 关 键 特 性 说 明

2.3.3.4.6. 寄 存 器 配 置 说 明

2.3.3.5. 矩 阵 计 算 的 搬 出

2.3.3.5.10. L1到GM数 据 搬 运

2.3.3.5.11. 关 键 特 性 说 明

2.3.3.5.12. 寄 存 器 配 置 说 明

2.3.4.1. 概 述

2.3.4.2. 矩 阵 计 算 分 形 介 绍

2.3.4.3. 矩 阵 计 算 的 搬 入

2.3.4.3.3. 矩 阵 数 据 搬 入 至L1 Buffer

2.3.4.3.4. 矩 阵 数 据 搬 入 至L0 Buffer)

2.3.4.4. Mmad计 算

2.3.4.4.2. 关 键 特 性 说 明

2.3.4.4.3. 寄 存 器 配 置 说 明

2.3.4.5. 矩 阵 计 算 的 搬 出

2.3.4.5.4. 关 键 特 性 说 明

2.3.5.2. SIMD计 算 说 明

2.3.5.2.4. 掩 码

2.3.5.3. 数 据 搬 运

2.3.5.3.1. GM与UB数 据 搬 运

2.3.5.3.2. UB与UB数 据 搬 运

2.3.5.4. 基 础 算 术

2.3.5.5. 逻 辑 计 算

2.3.5.6. 复 合 计 算

2.3.5.7. 比 较 与 选 择

2.3.5.8. 类 型 转 换

2.3.5.8.1. 寄 存 器 配 置 说 明

2.3.5.9. 归 约 计 算

2.3.5.9.8. 寄 存 器 辅 助 接 口

2.3.5.10. 数 据 排 布 转 换

2.3.5.11. 数 据 填 充

2.3.5.12. 排 序 组 合（ISASI）

2.3.5.13. 离 散 与 聚 合

2.3.5.14. 掩 码 操 作

2.3.5.15. 数 据 重 排（ISASI）

2.3.6.1. 寄 存 器 数 据 类 型

2.3.6.3. Reg数 据 搬 运

2.3.6.4. MaskReg计 算

2.3.6.5. 基 础 算 术

2.3.6.6. 逻 辑 计 算

2.3.6.7. 复 合 计 算

2.3.6.8. 比 较 与 选 择

2.3.6.9. 类 型 转 换

2.3.6.10. 归 约 计 算

2.3.6.11. 数 据 填 充

2.3.6.12. 离 散 操 作

2.3.6.13. 数 据 重 排

2.3.6.14. 数 据 压 缩

2.3.6.15. 直 方 图 计 算

2.3.6.16. 索 引 操 作

2.3.6.17. 同 步 控 制

2.3.6.18. 系 统 变 量 访 问

2.3.6.19. 数 据 类 型

2.3.8.1. Pipe和Que框 架

2.3.8.1.1. TPipe

2.3.8.1.3. TBufPool

2.3.8.1.4. 自 定 义TBufPool

2.3.8.1.5. TQue

2.3.8.1.6. TSCM

2.3.8.1.7. TQueBind

2.3.1.3. LocalTensor和GlobalTensor定义

2.3.1.4. Tensor API基础数据结构

2.3.1.4.1. Layout数据结构

2.3.1.4.2. Tensor数据结构

2.3.1.4.3. 工具函数

2.3.1.5. 辅助数据结构

2.3.2.1. 概览

2.3.3.1. 概述

2.3.3.2. 矩阵计算分形介绍

2.3.3.3. 矩阵计算的搬入

2.3.3.3.4. 矩阵数据搬入至L0-Buffer

2.3.3.3.5. 矩阵数据搬入至L1-Buffer

2.3.3.3.6. 辅助配置接口

2.3.3.4. Mmad计算

2.3.3.4.5. 关键特性说明

2.3.3.4.6. 寄存器配置说明

2.3.3.5. 矩阵计算的搬出

2.3.3.5.10. L1到GM数据搬运

2.3.3.5.11. 关键特性说明

2.3.3.5.12. 寄存器配置说明

2.3.4.1. 概述

2.3.4.2. 矩阵计算分形介绍

2.3.4.3. 矩阵计算的搬入

2.3.4.3.3. 矩阵数据搬入至L1 Buffer

2.3.4.3.4. 矩阵数据搬入至L0 Buffer)

2.3.4.4. Mmad计算

2.3.4.4.2. 关键特性说明

2.3.4.4.3. 寄存器配置说明

2.3.4.5. 矩阵计算的搬出

2.3.4.5.4. 关键特性说明

2.3.5.2. SIMD计算说明

2.3.5.2.4. 掩码

2.3.5.3. 数据搬运

2.3.5.3.1. GM与UB数据搬运

2.3.5.3.2. UB与UB数据搬运

2.3.5.4. 基础算术

2.3.5.5. 逻辑计算

2.3.5.6. 复合计算

2.3.5.7. 比较与选择

2.3.5.8. 类型转换

2.3.5.8.1. 寄存器配置说明

2.3.5.9. 归约计算

2.3.5.9.8. 寄存器辅助接口

2.3.5.10. 数据排布转换

2.3.5.11. 数据填充

2.3.5.12. 排序组合（ISASI）

2.3.5.13. 离散与聚合

2.3.5.14. 掩码操作

2.3.5.15. 数据重排（ISASI）

2.3.6.1. 寄存器数据类型

2.3.6.3. Reg数据搬运

2.3.6.4. MaskReg计算

2.3.6.5. 基础算术

2.3.6.6. 逻辑计算

2.3.6.7. 复合计算

2.3.6.8. 比较与选择

2.3.6.9. 类型转换

2.3.6.10. 归约计算

2.3.6.11. 数据填充

2.3.6.12. 离散操作

2.3.6.13. 数据重排

2.3.6.14. 数据压缩

2.3.6.15. 直方图计算

2.3.6.16. 索引操作

2.3.6.17. 同步控制

2.3.6.18. 系统变量访问

2.3.6.19. 数据类型

2.3.8.1. Pipe和Que框架

2.3.8.1.4. 自定义TBufPool

2.3.8.2. 临时空间管理

2.3.8.3. 内存管理

2.3.9.2. 核内同步

2.3.9.3. 核间同步

2.3.9.4. 任务间同步

2.3.12.1. 上板打印

2.3.12.2. 异常检测

2.3.12.3. CPU孪生调试

2.3.12.4. 性能统计

2.3.13.1. 执行模式

2.3.13.2. 系统初始化