BlockReduceSum

产品支持情况

产品	是否支持
Ascend 950PR/Ascend 950DT	√
Atlas A3 训练系列产品/Atlas A3 推理系列产品	√
Atlas A2 训练系列产品/Atlas A2 推理系列产品	√
Atlas 200I/500 A2 推理产品	√
Atlas 推理系列产品AI Core	√
Atlas 推理系列产品Vector Core	x
Atlas 训练系列产品	√
Kirin X90	√
Kirin 9030	√

功能说明

对每个datablock内所有元素求和。源操作数相加采用二叉树方式，两两相加。归约指令的总体介绍请参考如何使用归约计算API。

以128个half类型的数据求和为例，每个datablock可以计算16个half类型数据，分成8个datablock进行计算；每个datablock内，通过二叉树的方式，两两相加，BlockReduceSum求和示意图如下。

图 1 BlockReduceSum求和示意图

需要注意的是两两相加的计算过程中，计算结果大于65504时结果保存为65504。例如，源操作数为[60000,60000,-30000,100]，首先60000+60000溢出，结果为65504，然后计算-30000+100=-29900，最后计算65504-29900=35604，计算示意图如下图所示。

图 2 存在溢出场景时的计算示意图

函数原型

mask逐比特模式

Text

template <typename T, bool isSetMask = true>
__aicore__ inline void BlockReduceSum(const LocalTensor<T>& dst, const LocalTensor<T>& src,const int32_t repeatTime, const uint64_t mask[], const int32_t dstRepStride, const int32_t srcBlkStride, const int32_t srcRepStride)

mask连续模式

Text

template <typename T, bool isSetMask = true>
__aicore__ inline void BlockReduceSum(const LocalTensor<T>& dst, const LocalTensor<T>& src,const int32_t repeatTime, const int32_t mask, const int32_t dstRepStride, const int32_t srcBlkStride, const int32_t srcRepStride)

参数说明

表 1 模板参数说明

参数名	描述
T	操作数数据类型。 Ascend 950PR/Ascend 950DT，支持的数据类型为：half、float Atlas A3 训练系列产品/Atlas A3 推理系列产品，支持的数据类型为：half/float Atlas A2 训练系列产品/Atlas A2 推理系列产品，支持的数据类型为：half/float Atlas 200I/500 A2 推理产品，支持的数据类型为：half/float Atlas 推理系列产品AI Core，支持的数据类型为：half/float Atlas 训练系列产品，支持的数据类型为：half Kirin X90，支持的数据类型为：half/float Kirin 9030，支持的数据类型为：half/float
isSetMask	是否在接口内部设置mask。 true，表示在接口内部设置mask。 false，表示在接口外部设置mask，开发者需要使用SetVectorMask接口设置mask值。这种模式下，接口入参中的mask值设置为占位符MASK_PLACEHOLDER，用于占位，无实际含义。

参数名

描述

操作数数据类型。

Ascend 950PR/Ascend 950DT，支持的数据类型为：half、float

Atlas A3 训练系列产品/Atlas A3 推理系列产品，支持的数据类型为：half/float

Atlas A2 训练系列产品/Atlas A2 推理系列产品，支持的数据类型为：half/float

Atlas 200I/500 A2 推理产品，支持的数据类型为：half/float

Atlas 推理系列产品AI Core，支持的数据类型为：half/float

Atlas 训练系列产品，支持的数据类型为：half

Kirin X90，支持的数据类型为：half/float

Kirin 9030，支持的数据类型为：half/float

isSetMask

是否在接口内部设置mask。

true，表示在接口内部设置mask。
false，表示在接口外部设置mask，开发者需要使用SetVectorMask接口设置mask值。这种模式下，接口入参中的mask值设置为占位符MASK_PLACEHOLDER，用于占位，无实际含义。

表 2 参数说明

参数名称	输入/输出	含义
dst	输出	目的操作数。类型为LocalTensor，支持的TPosition为VECIN/VECCALC/VECOUT。 LocalTensor的起始地址需要保证16字节对齐（针对half数据类型），32字节对齐（针对float数据类型）。
src	输入	源操作数。类型为LocalTensor，支持的TPosition为VECIN/VECCALC/VECOUT。 LocalTensor的起始地址需要32字节对齐。
repeatTime	输入	迭代次数。取值范围为[0, 255]。关于该参数的具体描述请参考高维切分API。
mask/mask[]	输入	mask用于控制每次迭代内参与计算的元素。逐bit模式：可以按位控制哪些元素参与计算，bit位的值为1表示参与计算，0表示不参与。 mask为数组形式，数组长度和数组元素的取值范围和操作数的数据类型有关。当操作数为16位时，数组长度为2，mask[0]、mask[1]∈[0, 2⁶⁴-1]并且不同时为0；当操作数为32位时，数组长度为1，mask[0]∈(0, 2⁶⁴-1]；当操作数为64位时，数组长度为1，mask[0]∈(0, 2³²-1]。例如，mask=[8, 0]，8=0b1000，表示仅第4个元素参与计算。连续模式：表示前面连续的多少个元素参与计算。取值范围和操作数的数据类型有关，数据类型不同，每次迭代内能够处理的元素个数最大值不同。当操作数为16位时，mask∈[1, 128]；当操作数为32位时，mask∈[1, 64]；当操作数为64位时，mask∈[1, 32]。
dstRepStride	输入	目的操作数相邻迭代间的地址步长。以一个repeatTime归约后的长度为单位。每个repeatTime(8个datablock)归约后，得到8个元素，所以输入类型为half类型时，RepStride单位为16Byte；输入类型为float类型时，RepStride单位为32Byte。注意，此参数值 Atlas 训练系列产品不支持配置0。
srcBlkStride	输入	单次迭代内datablock的地址步长。详细说明请参考 dataBlockStride。
srcRepStride	输入	源操作数相邻迭代间的地址步长，即源操作数每次迭代跳过的datablock数目。详细说明请参考 repeatStride。

返回值说明

无

约束说明

操作数地址对齐要求请参见通用地址对齐约束。
为了节省地址空间，您可以定义一个Tensor，供源操作数与目的操作数同时使用（即地址重叠），需要注意计算后的目的操作数数据不能覆盖未参与计算的源操作数，需要谨慎使用。
对于Atlas 200I/500 A2 推理产品，若配置的mask/mask[]参数后，存在某个datablock里的任何一个元素都不参与计算，则该datablock内所有元素的和会填充为0返回。比如float场景下，当mask配置为32，即只计算前4个datablock，则后四个datablock内的和会返回0。

调用示例

本样例中只展示Compute流程中的部分代码。完整样例可参考BlockReduce系列归约指令样例。

BlockReduceSum-tensor高维切分计算样例-mask连续模式

Text

// 设 定mask为 最 多 的128个 全 部 元 素 参 与 计 算
int32_t mask = 256/sizeof(half);
// 每 个repeat128个 元 素，一 共128个 元 素。
int repeat = 1;
// dstLocal: 目 的 操 作 数tensor
// srcLocal: 源 操 作 数tensor
// srcBlkStride = 1, 在 一 个repeat中，block间 没 有 空 隙。
// dstRepStride = 1, srcRepStride = 8, repeat间 没 有 空 隙。
AscendC::BlockReduceSum<half>(dstLocal, srcLocal, repeat, mask, 1, 1, 8);

BlockReduceSum-tensor高维切分计算样例-mask逐bit模式

Text

// 设 定mask为 最 多 的128个 全 部 元 素 参 与 计 算
uint64_t mask[2] = { UINT64_MAX, UINT64_MAX };
// 每 个repeat128个 元 素，一 共128个 元 素。
int repeat = 1;
// dstLocal: 目 的 操 作 数tensor
// srcLocal: 源 操 作 数tensor
// srcBlkStride = 1, 在 一 个repeat中，block间 没 有 空 隙。
// dstRepStride = 1, srcRepStride = 8, repeat间 没 有 空 隙。
AscendC::BlockReduceSum<half>(dstLocal, srcLocal, repeat, mask, 1, 1, 8);

结果示例如下：

Text

输 入 数 据src_gm: 
[1, 1, 1, 1, 1, 1, 1, 1,
 1, 1, 1, 1, 1, 1, 1, 1,
 2, 2, 2, 2, 2, 2, 2, 2,
 2, 2, 2, 2, 2, 2, 2, 2,
 ... 
 3, 3, 3, 3, 3, 3, 3, 3,
 3, 3, 3, 3, 3, 3, 3, 3]

输 出 数 据dst_gm: 
[16, 32, ..., 48]

针对不同场景合理使用归约指令可以带来性能提升，相关介绍请参考选择低延迟指令，优化归约操作性能，具体样例请参考ReduceCustom。

2.4.2.1. DataCopy

2.4.3.1. 概 述

2.4.3.2. 矩 阵 计 算 分 形 介 绍

2.4.3.3. 数 据 搬 运

2.4.3.3.2. LoadData

2.4.3.4. 矩 阵 计 算

2.4.4.2. SIMD计 算 说 明

2.4.4.2.4. 掩 码

2.4.4.3. 基 础 算 术

2.4.4.4. 逻 辑 计 算

2.4.4.5. 复 合 计 算

2.4.4.6. 比 较 与 选 择

2.4.4.7. 类 型 转 换

2.4.4.7.1. 寄 存 器 配 置 说 明

2.4.4.8. 归 约 计 算

2.4.4.9. 数 据 排 布 转 换

2.4.4.10. 数 据 填 充

2.4.4.11. 排 序 组 合（ISASI）

2.4.4.12. 离 散 与 聚 合

2.4.4.13. 掩 码 操 作

2.4.4.14. 数 据 重 排（ISASI）

2.4.5.1. 寄 存 器 数 据 类 型

2.4.5.3. Reg数 据 搬 运

2.4.5.4. MaskReg计 算

2.4.5.5. 基 础 算 术

2.4.5.6. 逻 辑 计 算

2.4.5.7. 复 合 计 算

2.4.5.8. 比 较 与 选 择

2.4.5.9. 类 型 转 换

2.4.5.10. 归 约 计 算

2.4.5.11. 数 据 填 充

2.4.5.12. 离 散 与 聚 合

2.4.5.13. 数 据 重 排

2.4.5.14. 数 据 压 缩

2.4.5.15. 直 方 图 计 算

2.4.5.16. 索 引 操 作

2.4.5.17. 同 步 控 制

2.4.5.18. 系 统 变 量 访 问

2.4.5.19. 数 据 类 型

2.4.7.1. Pipe和Que框 架

2.4.7.1.1. TPipe

2.4.7.1.3. TBufPool

2.4.7.1.4. 自 定 义TBufPool

2.4.7.1.5. TQue

2.4.7.1.6. TSCM

2.4.7.1.7. TQueBind

2.4.7.1.8. TBuf

2.4.7.2. 临 时 空 间 管 理

2.4.7.2.1. workspace

2.4.7.3. 内 存 管 理

2.4.7.3.1. LocalMemAllocator

2.4.8.2. 核 内 同 步

2.4.8.2.3. TQueSync

2.4.8.2.7. Mutex（ISASI）

2.4.8.3. 核 间 同 步

2.4.8.4. 任 务 间 同 步

2.4.11.1. 上 板 打 印

2.4.11.2. 异 常 检 测

2.4.11.3. CPU孪 生 调 试

2.4.11.4. 性 能 统 计

2.4.12.1. 执 行 模 式

2.4.12.2. 系 统 初 始 化

2.4.12.3. 数 学 计 算

2.4.12.3.1. NumericLimits

2.4.12.4. 系 统 资 源 与 变 量

2.4.13.1. CubeResGroupHandle

2.4.13.2. GroupBarrier

2.4.13.3. KfcWorkspace

2.5.6.2. reg_load

2.5.6.2.1. asc_loadalign

2.5.6.3. reg_store

2.5.6.3.1. asc_storealign

2.5.6.4. reg_vector

2.6.1.1. Tanh接 口

2.6.1.2. Asin接 口

2.6.1.3. Sin接 口

2.6.1.4. Acos接 口

2.6.1.5. Cos接 口

2.6.1.6. Log接 口

2.6.1.7. Atan接 口

2.4.3.1. 概述

2.4.3.2. 矩阵计算分形介绍

2.4.3.3. 数据搬运

2.4.3.4. 矩阵计算

2.4.4.2. SIMD计算说明

2.4.4.2.4. 掩码

2.4.4.3. 基础算术

2.4.4.4. 逻辑计算

2.4.4.5. 复合计算

2.4.4.6. 比较与选择

2.4.4.7. 类型转换

2.4.4.7.1. 寄存器配置说明

2.4.4.8. 归约计算

2.4.4.9. 数据排布转换

2.4.4.10. 数据填充

2.4.4.11. 排序组合（ISASI）

2.4.4.12. 离散与聚合

2.4.4.13. 掩码操作

2.4.4.14. 数据重排（ISASI）

2.4.5.1. 寄存器数据类型

2.4.5.3. Reg数据搬运

2.4.5.4. MaskReg计算

2.4.5.5. 基础算术

2.4.5.6. 逻辑计算

2.4.5.7. 复合计算

2.4.5.8. 比较与选择

2.4.5.9. 类型转换

2.4.5.10. 归约计算

2.4.5.11. 数据填充

2.4.5.12. 离散与聚合

2.4.5.13. 数据重排

2.4.5.14. 数据压缩

2.4.5.15. 直方图计算

2.4.5.16. 索引操作

2.4.5.17. 同步控制

2.4.5.18. 系统变量访问

2.4.5.19. 数据类型

2.4.7.1. Pipe和Que框架

2.4.7.1.4. 自定义TBufPool

2.4.7.2. 临时空间管理

2.4.7.3. 内存管理

2.4.8.2. 核内同步

2.4.8.3. 核间同步

2.4.8.4. 任务间同步

2.4.11.1. 上板打印

2.4.11.2. 异常检测

2.4.11.3. CPU孪生调试

2.4.11.4. 性能统计

2.4.12.1. 执行模式

2.4.12.2. 系统初始化

2.4.12.3. 数学计算

2.4.12.4. 系统资源与变量

2.6.1.1. Tanh接口

2.6.1.2. Asin接口

2.6.1.3. Sin接口

2.6.1.4. Acos接口

2.6.1.5. Cos接口

2.6.1.6. Log接口

2.6.1.7. Atan接口

2.6.1.8. Power接口

2.6.1.9. Sinh接口

2.6.1.10. Cosh接口

2.6.1.11. Tan接口

2.6.1.12. Trunc接口

2.6.1.13. Frac接口

2.6.1.14. Erf接口

2.6.1.15. Erfc接口

2.6.1.16. Sign接口

2.6.1.17. Atanh接口

2.6.1.18. Asinh接口

2.6.1.19. Acosh接口

2.6.1.20. Floor接口

2.6.1.21. Ceil接口

2.6.1.22. Clamp接口

2.6.1.23. Round接口

2.6.1.24. Axpy接口

2.6.1.25. Exp接口

2.6.1.26. Lgamma接口

2.6.1.27. Digamma接口

2.6.1.28. Xor接口