MmadWithSparse

产品支持情况

产品	是否支持
Ascend 950PR/Ascend 950DT	x
Atlas A3 训练系列产品/Atlas A3 推理系列产品	√
Atlas A2 训练系列产品/Atlas A2 推理系列产品	√
Atlas 200I/500 A2 推理产品	x
Atlas 推理系列产品AI Core	x
Atlas 推理系列产品Vector Core	x
Atlas 训练系列产品	x

功能说明

头文件路径为：#include "basic_api/kernel_operator_mm_intf.h"。

MmadWithSparse接口负责完成特殊稀疏矩阵乘加操作。稀疏矩阵是一种特殊类型的矩阵，即矩阵中包含较多的零元素。4：2结构化稀疏要求一个连续的4个权重或激活值的组（通常是张量中的一行或一列）中，最多只有2个值为非零，其余2个强制为零。

MmadWithSparse接口传入的左矩阵A为稀疏矩阵，右矩阵B为稠密矩阵。矩阵A是个全尺寸矩阵，在MmadWithSparse计算时完成稠密化；矩阵B是经过4：2结构化稀疏过滤掉零值之后的稠密矩阵，需要在计算执行前的输入数据准备时自行完成稠密化（按照下文中介绍的稠密算法进行稠密化）。B稠密矩阵需要通过调用LoadDataWithSparse载入，同时加载索引矩阵，索引矩阵在矩阵B稠密化的过程中生成，再用于A矩阵的稠密化。索引矩阵存储在内部缓冲区，该索引矩阵的布局和布局大小与矩阵B相同，用于在进行矩阵乘加操作之前进一步将矩阵A压缩。

跟Mmad接口实现昇腾NPU矩阵乘计算能力类似，MmadWithSparse接口的数学表达式为：

$$ C = A \times B + C $$

完整示例请参考：MmadWithSparse样例

表 1 Sparse矩阵计算矩阵A、B、C解释说明

矩阵计算逻辑	矩阵计算物理位置	维度	输入/输出数据格式	数据类型
A	L0A Buffer	M x K	Zz	数据类型
B	L0B Buffer	K/2 x N	Zn
C	L0C Buffer	M x N	Nz

下面的图展示了Cube如何计算出其中一行和一列的内积：

图 1 MmadWithSparse接口计算流程示意图 MmadWithSparse接口计算流程示意图

其中矩阵A原始分形为(16, 2*C0)，索引矩阵Index分形为(C0，16)，每一行矩阵A的数据会基于索引矩阵Index中对应的一列数据进行4选2，索引矩阵分形格式及生成方式请参考4选2稀疏索引矩阵，选择算法参考矩阵A稀疏选择算法说明；经过选择处理后的矩阵A分形变成(16, C0)，矩阵B原始分形为(C0, 16)，接下来会执行普通Mmad运算，即矩阵A中一行和矩阵B中一列完成内积运算得到结果矩阵C中对应一个元素。

矩阵A稀疏选择算法说明

索引矩阵经过LoadDataWithSparse指令后存储于Cube上内置的专用buffer空间，数据类型为uint8，分形格式为小n大Z，对应上图中的分形大小为（32，16）。每一个uint8类型的索引元素由4个uint2的原始数据组成，每两个2位索引数据可对应4位原始矩阵A。针对每一组2个索引数据，A矩阵的4个元素的选择过滤规则示例如下表：

第一个索引数据0用于指示前3个元素中第1个非零元素的相对位置。
第二个索引数据1用于指示第2个非零元素在后3个元素中的相对位置。

其中，“-”表示不关心该位置上的值，即会被过滤。

表 2 矩阵A选择过滤规则表

索引数据0	索引数据1	元素0	元素1	元素2	元素3
2’b10	2’b10	-	-	X	Y
2’b01	2’b10	-	X	-	Y
2’b00	2’b10	X	-	-	Y
2’b01	2’b01	-	X	Y	-
2’b00	2’b01	X	-	Y	-
2’b00	2’b00	X	Y	-	-
2’b00	2’b10	X	-	-	Y
2’b10	2’b00	-	X	Y	-
2’b01	2’b00	-	X/X	-	-
2’b00	2’b00	X	Y	-	-
2’b00	2’b00	X	Y	-	-

图 2 矩阵A 4：2选择算法模型矩阵A-4-2选择算法模型

图2展示了一个uint8类型的索引元素对应选择8个原始矩阵A元素的算法模型，最后输出4个选择后的矩阵A元素。

在正常使用情况下，软件应确保最多存在两个非零元素。如果发生错误，即存在三个或更多非零元素时，只会使用最低有效位（LSB）位置的前两个非零元素。
上表中使用的“-”表示“不关心该位置上的值”，即暗示可能存在三个或更多非零元素的情况。

函数原型

C++

template <typename T = int32_t, typename U = int8_t, typename Std::enable_if<Std::is_same<PrimT<T>, int32_t>::value, bool>::type = true, typename Std::enable_if<Std::is_same<PrimT<U>, int8_t>::value, bool>::type = true>
__aicore__ inline void MmadWithSparse(const LocalTensor<T>& dst, const LocalTensor<U>& fm, const LocalTensor<U>& filter, const MmadParams& mmadParams)

参数说明

表 3 模板参数说明

参数名	描述
T	dst的数据类型。
U	fm、filter的数据类型。当dst、fm、filter为基础数据类型时，T必须为int32_t类型，U必须为int8_t类型，否则编译失败。

表 4 参数说明

参数名称	输入/输出	含义
dst	输出	目的操作数，结果矩阵，类型为LocalTensor，支持的物理存储位置为L0C Buffer（TPosition:CO1）。 LocalTensor的起始地址需要256个元素（1024字节）对齐。
fm	输入	源操作数，左矩阵A，类型为LocalTensor，支持的物理存储位置为L0A Buffer（TPosition: A2）。 LocalTensor的起始地址需要512字节对齐。
filter	输入	源操作数，右矩阵B，类型为LocalTensor，支持的物理存储位置为L0B Buffer（TPosition:B2）。 LocalTensor的起始地址需要512字节对齐。
mmadParams	输入	矩阵乘相关参数，类型为MmadParams。具体定义请参考${INSTALL_DIR}/include/ascendc/basic_api/interface/kernel_struct_mm.h，${INSTALL_DIR}请替换为CANN软件安装后文件存储路径。参数说明请参考表5。

表 5 MmadParams结构体内参数说明（Sparse场景）

参数名称	含义
m	左矩阵Height，取值范围：m∈[0，4095]。默认值为0。
n	右矩阵Width，取值范围：n∈[0，4095]。默认值为0。
k	左矩阵Width、右矩阵Height，取值范围：k∈[0，4095]。默认值为0。
cmatrixInitVal	是否使能C矩阵默认初始化清零操作。默认值true。 true：C矩阵默认初始化为0；false：C矩阵不进行默认操作，通过设置cmatrixSource参数进行初始化。
cmatrixSource	配置C矩阵初始值是否来源于BT Buffer。默认值为false。 false：不对L0C进行初始化操作； true：使用BT Buffer（TPosition:C2）的数据对L0C进行初始化操作。 Atlas A2 训练系列产品/Atlas A2 推理系列产品，支持配置为true/false。 Atlas A3 训练系列产品/Atlas A3 推理系列产品，支持配置为true/false。 Atlas 200I/500 A2 推理产品，支持配置为true/false。注意：带bias输入的接口配置该参数无效，会根据bias输入的位置来判断C矩阵初始值是否来源于BT Buffer。
isBias	该参数废弃，新开发内容不要使用该参数。如果需要累加初始矩阵，请使用带bias的接口来实现；也可以通过cmatrixInitVal和cmatrixSource参数配置C矩阵的初始值来源来实现。推荐使用带bias的接口，相比于配置cmatrixInitVal和cmatrixSource参数更加简单方便。配置是否需要累加初始矩阵，默认值为false，取值说明如下： false：矩阵乘，无需累加初始矩阵，C = A * B。true：矩阵乘加，需要累加初始矩阵，C += A * B。
unitFlag	unitFlag是一种Mmad指令和Fixpipe指令细粒度的并行，使能该功能后，硬件每计算完一个分形，计算结果就会被搬出。取值说明如下： 0（2'b00）：不使能unitFlag； 1（2'b01）：保留值； 2（2'b10）：使能unitFlag，硬件执行完指令之后，不复位单元标记位； 3（2'b11）：使能unitFlag，硬件执行完指令之后，复位单元标记位。使能该功能时，须将Mmad指令和Fixpipe指令的unitFlag值设置为2或3。该参数仅支持如下型号： Atlas A2 训练系列产品/Atlas A2 推理系列产品 Atlas A3 训练系列产品/Atlas A3 推理系列产品参数设置方案和特性细节可参考： UnitFlag
kDirectionAlign	Sparse场景本开关默认为false，不支持配置为true。K方向对齐的核心功能是通过`kDirectionAlign` 参数控制在使用float数据类型时，L0A和L0B矩阵在K方向上的对齐方式。
fmOffset	左矩阵offset（整个左矩阵对应一个值），支持Scalar（应与src_fm.dtype一致）/立即数，默认0。注：未使用，兼容旧款产品接口传入，Atlas A2 训练系列产品/Atlas A2 推理系列产品及往后产品不做处理。
enSsparse	使能结构化稀疏特性，默认false；注：未使用，兼容旧款产品接口传入，Atlas A2 训练系列产品/Atlas A2 推理系列产品及往后产品不做处理。
enWinogradA	指示矩阵a是否通过winograd_feature_map_transform() 生成，用于支持winograd特性，bool类型，默认false；注：未使用，兼容旧款产品接口传入，Atlas A2 训练系列产品/Atlas A2 推理系列产品及往后产品不做处理。
enWinogradB	指示矩阵b是否通过winograd_weight_transform()生成，用于支持winograd特性，bool类型，默认false；注：未使用，兼容旧款产品接口传入，Atlas A2 训练系列产品/Atlas A2 推理系列产品及往后产品不做处理。

数据类型

表 6 A、B、C支持的精度类型组合（Atlas 200I/500 A2 推理产品）（Atlas A2 训练系列产品/Atlas A2 推理系列产品）（Atlas A3 训练系列产品/Atlas A3 推理系列产品）

左矩阵A	右矩阵B	结果矩阵C
int8_t	int8_t	int32_t

返回值说明

无

约束说明

不同矩阵对于存储位置的约束：
- 结果矩阵C只支持位于物理存储位置为L0C Buffer（TPosition:CO1）
- 左矩阵A只支持位于物理存储位置为L0A Buffer（TPosition:A2）
- 右矩阵B只支持位于物理存储位置为L0B Buffer（TPosition:B2）
原始稀疏矩阵B每4个元素中应保证最多2个非零元素，如果存在3个或更多非零元素，则仅使用前2个非零元素。
当M、K、N中的任意一个值为0时，表示指令不会执行，该接口将被视为NOP（空操作）。
MmadWithSparse接口不支持Gemv模式。
其他特殊场景约束可参考Mmad接口约束说明。

调用示例

完整使用样例请参见MmadWithSparse样例。

C++

AscendC::LocalTensor<int8_t> a1Local(AscendC::TPosition::A1, a1Addr, aSize);
AscendC::LocalTensor<int8_t> a2Local(AscendC::TPosition::A2, a2Addr, aSize);
AscendC::LocalTensor<int8_t> b1Local(AscendC::TPosition::B1, b1Addr, bSize);
AscendC::LocalTensor<uint8_t> idxB1Local(AscendC::TPosition::B1, idxB1Addr, bSize / 4);
AscendC::LocalTensor<int8_t> b2Local(AscendC::TPosition::B2, b2Addr, bSize);
AscendC::LocalTensor<int32_t> cLocal(AscendC::TPosition::CO1, cAddr, cSize);

// GM->L1，将 原 始 矩 阵a，稠 密 化 矩 阵b与 对 应idx矩 阵 搬 运 至L1
CopyIn(a1Local, b1Local, idxB1Local);
AscendC::SetFlag<AscendC::HardEvent::MTE2_MTE1>(EVENT_ID0);
AscendC::WaitFlag<AscendC::HardEvent::MTE2_MTE1>(EVENT_ID0);

// L1->L0, 将 原 始 矩 阵a，稠 密 化 矩 阵b与 对 应idx矩 阵 搬 运 至L0
SplitA(a1Local, a2Local);
SplitB(b2Local, b1Local, idxB1Local);
AscendC::SetFlag<AscendC::HardEvent::MTE1_M>(EVENT_ID0);
AscendC::WaitFlag<AscendC::HardEvent::MTE1_M>(EVENT_ID0);

// mmad 需 要 指 定 矩 阵 的 维 度 进 行 计 算
uint32 m = 128;
uint32 k = 64;
uint32 n = 128;
AscendC::MmadWithSparse(c1Local, a2Local, b2Local, { m, n, k, false, 0, false, false, false });

2.3.6.1. Layout数 据 结 构

2.3.6.2. Tensor数 据 结 构

2.3.6.3. 工 具 函 数

2.4.2.1. DataCopy

2.4.3.1. 概 述

2.4.3.2. 矩 阵 计 算 分 形 介 绍

2.4.3.3. 矩 阵 计 算 的 搬 入

2.4.3.3.4. 矩 阵 数 据 搬 入 至L1 Buffer

2.4.3.3.5. 矩 阵 数 据 搬 入 至L0 Buffer

2.4.3.3.6. 辅 助 配 置 接 口

2.4.3.4. 数 据 搬 运

2.4.3.4.2. LoadData

2.4.3.5. 矩 阵 计 算

2.4.3.5.5. 关 键 特 性 说 明

2.4.3.5.6. 寄 存 器 配 置 说 明

2.4.3.6. 矩 阵 计 算 的 搬 出

2.4.3.6.10. L1到GM数 据 搬 运

2.4.3.6.11. 关 键 特 性 说 明

2.4.3.6.12. 寄 存 器 配 置 说 明

2.4.4.2. SIMD计 算 说 明

2.4.4.2.4. 掩 码

2.4.4.3. 数 据 搬 运

2.4.4.3.1. GM与UB数 据 搬 运

2.4.4.3.2. UB与UB数 据 搬 运

2.4.4.4. 基 础 算 术

2.4.4.5. 逻 辑 计 算

2.4.4.6. 复 合 计 算

2.4.4.7. 比 较 与 选 择

2.4.4.8. 类 型 转 换

2.4.4.8.1. 寄 存 器 配 置 说 明

2.4.4.9. 归 约 计 算

2.4.4.9.8. 寄 存 器 辅 助 接 口

2.4.4.10. 数 据 排 布 转 换

2.4.4.11. 数 据 填 充

2.4.4.12. 排 序 组 合（ISASI）

2.4.4.13. 离 散 与 聚 合

2.4.4.14. 掩 码 操 作

2.4.4.15. 数 据 重 排（ISASI）

2.4.5.1. 寄 存 器 数 据 类 型

2.4.5.3. Reg数 据 搬 运

2.4.5.4. MaskReg计 算

2.4.5.5. 基 础 算 术

2.4.5.6. 逻 辑 计 算

2.4.5.7. 复 合 计 算

2.4.5.8. 比 较 与 选 择

2.4.5.9. 类 型 转 换

2.4.5.10. 归 约 计 算

2.4.5.11. 数 据 填 充

2.4.5.12. 离 散 与 聚 合

2.4.5.13. 数 据 重 排

2.4.5.14. 数 据 压 缩

2.4.5.15. 直 方 图 计 算

2.4.5.16. 索 引 操 作

2.4.5.17. 同 步 控 制

2.4.5.18. 系 统 变 量 访 问

2.4.5.19. 数 据 类 型

2.4.7.1. Pipe和Que框 架

2.4.7.1.1. TPipe

2.4.7.1.3. TBufPool

2.4.7.1.4. 自 定 义TBufPool

2.4.7.1.5. TQue

2.4.7.1.6. TSCM

2.4.7.1.7. TQueBind

2.4.7.1.8. TBuf

2.4.7.2. 临 时 空 间 管 理

2.4.7.2.1. workspace

2.4.7.3. 内 存 管 理

2.4.7.3.1. LocalMemAllocator

2.4.8.2. 核 内 同 步

2.4.8.2.3. TQueSync

2.4.8.2.7. Mutex（ISASI）

2.4.8.3. 核 间 同 步

2.4.8.4. 任 务 间 同 步

2.4.11.1. 上 板 打 印

2.4.11.2. 异 常 检 测

2.4.11.3. CPU孪 生 调 试

2.4.11.4. 性 能 统 计

2.4.12.1. 执 行 模 式

2.4.12.2. 系 统 初 始 化

2.4.12.3. 数 学 计 算

2.3.6.1. Layout数据结构

2.3.6.2. Tensor数据结构

2.3.6.3. 工具函数

2.4.3.1. 概述

2.4.3.2. 矩阵计算分形介绍

2.4.3.3. 矩阵计算的搬入

2.4.3.3.4. 矩阵数据搬入至L1 Buffer

2.4.3.3.5. 矩阵数据搬入至L0 Buffer

2.4.3.3.6. 辅助配置接口

2.4.3.4. 数据搬运

2.4.3.5. 矩阵计算

2.4.3.5.5. 关键特性说明

2.4.3.5.6. 寄存器配置说明

2.4.3.6. 矩阵计算的搬出

2.4.3.6.10. L1到GM数据搬运

2.4.3.6.11. 关键特性说明

2.4.3.6.12. 寄存器配置说明

2.4.4.2. SIMD计算说明

2.4.4.2.4. 掩码

2.4.4.3. 数据搬运

2.4.4.3.1. GM与UB数据搬运

2.4.4.3.2. UB与UB数据搬运

2.4.4.4. 基础算术

2.4.4.5. 逻辑计算

2.4.4.6. 复合计算

2.4.4.7. 比较与选择

2.4.4.8. 类型转换

2.4.4.8.1. 寄存器配置说明

2.4.4.9. 归约计算

2.4.4.9.8. 寄存器辅助接口

2.4.4.10. 数据排布转换

2.4.4.11. 数据填充

2.4.4.12. 排序组合（ISASI）

2.4.4.13. 离散与聚合

2.4.4.14. 掩码操作

2.4.4.15. 数据重排（ISASI）

2.4.5.1. 寄存器数据类型

2.4.5.3. Reg数据搬运

2.4.5.4. MaskReg计算

2.4.5.5. 基础算术

2.4.5.6. 逻辑计算

2.4.5.7. 复合计算

2.4.5.8. 比较与选择

2.4.5.9. 类型转换

2.4.5.10. 归约计算

2.4.5.11. 数据填充

2.4.5.12. 离散与聚合

2.4.5.13. 数据重排

2.4.5.14. 数据压缩

2.4.5.15. 直方图计算

2.4.5.16. 索引操作

2.4.5.17. 同步控制

2.4.5.18. 系统变量访问

2.4.5.19. 数据类型

2.4.7.1. Pipe和Que框架

2.4.7.1.4. 自定义TBufPool

2.4.7.2. 临时空间管理

2.4.7.3. 内存管理

2.4.8.2. 核内同步

2.4.8.3. 核间同步

2.4.8.4. 任务间同步

2.4.11.1. 上板打印

2.4.11.2. 异常检测

2.4.11.3. CPU孪生调试

2.4.11.4. 性能统计

2.4.12.1. 执行模式

2.4.12.2. 系统初始化

2.4.12.3. 数学计算

2.4.12.4. 系统资源与变量

2.6.1.1. Tanh接口

2.6.1.2. Asin接口

2.6.1.3. Sin接口

2.6.1.4. Acos接口

2.6.1.5. Cos接口

2.6.1.6. Log接口

2.6.1.7. Atan接口

2.6.1.8. Power接口

2.6.1.9. Sinh接口

2.6.1.10. Cosh接口

2.6.1.11. Tan接口