WholeReduceSum

产品支持情况

产品	是否支持
Ascend 950PR/Ascend 950DT	√
Atlas A3 训练系列产品/Atlas A3 推理系列产品	√
Atlas A2 训练系列产品/Atlas A2 推理系列产品	√
Atlas 200I/500 A2 推理产品	√
Atlas 推理系列产品AI Core	√
Atlas 推理系列产品Vector Core	x
Atlas 训练系列产品	√
Kirin X90	√
Kirin 9030	√

功能说明

每个迭代内所有数据求和。归约指令的总体介绍请参考如何使用归约计算API。

函数原型

mask逐bit模式

Text

template <typename T, bool isSetMask = true>
__aicore__ inline void WholeReduceSum(const LocalTensor<T>& dst, const LocalTensor<T>& src, const uint64_t mask[], const int32_t repeatTime, const int32_t dstRepStride, const int32_t srcBlkStride, const int32_t srcRepStride)

mask连续模式

Text

template <typename T, bool isSetMask = true>
__aicore__ inline void WholeReduceSum(const LocalTensor<T>& dst, const LocalTensor<T>& src, const int32_t mask, const int32_t repeatTime, const int32_t dstRepStride, const int32_t srcBlkStride, const int32_t srcRepStride)

mask逐bit模式

Text

template <typename T, bool isSetMask = true, typename U = T>
__aicore__ inline void WholeReduceSum(const LocalTensor<U>& dst, const LocalTensor<T>& src, const uint64_t mask[], const int32_t repeatTime, const int32_t dstRepStride, const int32_t srcBlkStride, const int32_t srcRepStride)

mask连续模式

Text

template <typename T, bool isSetMask = true, typename U = T>
__aicore__ inline void WholeReduceSum(const LocalTensor<U>& dst, const LocalTensor<T>& src, const int32_t mask, const int32_t repeatTime, const int32_t dstRepStride, const int32_t srcBlkStride, const int32_t srcRepStride)

参数说明

表 1 模板参数说明

参数名	描述
T	源操作数数据类型。
U	目的操作数数据类型。
isSetMask	是否在接口内部设置mask。 true，表示在接口内部设置mask。 false，表示在接口外部设置mask，开发者需要使用SetVectorMask接口设置mask值。这种模式下，接口入参中的mask值设置为占位符MASK_PLACEHOLDER，用于占位，无实际含义。

参数名

描述

源操作数数据类型。

目的操作数数据类型。

isSetMask

是否在接口内部设置mask。

true，表示在接口内部设置mask。
false，表示在接口外部设置mask，开发者需要使用SetVectorMask接口设置mask值。这种模式下，接口入参中的mask值设置为占位符MASK_PLACEHOLDER，用于占位，无实际含义。

表 2 参数说明

参数名称	输入/输出	含义
dst	输出	目的操作数。类型为LocalTensor，支持的TPosition为VECIN/VECCALC/VECOUT。 LocalTensor的起始地址需要保证2字节对齐（针对half数据类型），4字节对齐（针对float数据类型）。 Ascend 950PR/Ascend 950DT，支持的数据类型为：uint32_t/int32_t/half/float Atlas A3 训练系列产品/Atlas A3 推理系列产品，支持的数据类型为：half/float Atlas A2 训练系列产品/Atlas A2 推理系列产品，支持的数据类型为：half/float Atlas 200I/500 A2 推理产品，支持的数据类型为：half/float Atlas 推理系列产品AI Core，支持的数据类型为：half/float Atlas 训练系列产品，支持的数据类型为：half/float Kirin X90，支持的数据类型为：half/float Kirin 9030，支持的数据类型为：half/float
src	输入	源操作数。类型为LocalTensor，支持的TPosition为VECIN/VECCALC/VECOUT。 LocalTensor的起始地址需要32字节对齐。源操作数的数据类型需要与目的操作数保持一致。针对 Ascend 950PR/Ascend 950DT：src数据类型uint16_t和int16_t时，dst数据类型分别为uint32_t和int32_t，其他情况下，dst数据类型均与src数据类型相同。 Ascend 950PR/Ascend 950DT，支持的数据类型为：uint16_t/int16_t/uint32_t/int32_t/half/float Atlas A3 训练系列产品/Atlas A3 推理系列产品，支持的数据类型为：half/float Atlas A2 训练系列产品/Atlas A2 推理系列产品，支持的数据类型为：half/float Atlas 200I/500 A2 推理产品，支持的数据类型为：half/float Atlas 推理系列产品AI Core，支持的数据类型为：half/float Atlas 训练系列产品，支持的数据类型为：支持的数据类型为half/float Kirin X90，支持的数据类型为：half/float Kirin 9030，支持的数据类型为：half/float
mask/mask[]	输入	mask用于控制每次迭代内参与计算的元素。逐bit模式：可以按位控制哪些元素参与计算，bit位的值为1表示参与计算，0表示不参与。 mask为数组形式，数组长度和数组元素的取值范围和操作数的数据类型有关。当操作数为16位时，数组长度为2，mask[0]、mask[1]∈[0, 2⁶⁴-1]并且不同时为0；当操作数为32位时，数组长度为1，mask[0]∈(0, 2⁶⁴-1]；当操作数为64位时，数组长度为1，mask[0]∈(0, 2³²-1]。例如，mask=[8, 0]，8=0b1000，表示仅第4个元素参与计算。连续模式：表示前面连续的多少个元素参与计算。取值范围和操作数的数据类型有关，数据类型不同，每次迭代内能够处理的元素个数最大值不同。当操作数为16位时，mask∈[1, 128]；当操作数为32位时，mask∈[1, 64]；当操作数为64位时，mask∈[1, 32]。
repeatTime	输入	迭代次数。取值范围为[0, 255]。关于该参数的具体描述请参考高维切分API。
dstRepStride	输入	目的操作数相邻迭代间的地址步长。以一个repeat归约后的长度为单位。单位为dst数据类型所占字节长度。比如当dst为half时，单位为2Bytes。注意，此参数值 Atlas 训练系列产品不支持配置0。
srcBlkStride	输入	单次迭代内datablock的地址步长。详细说明请参考 dataBlockStride。
srcRepStride	输入	源操作数相邻迭代间的地址步长，即源操作数每次迭代跳过的DataBlock数目。详细说明请参考 repeatStride。

返回值说明

无

约束说明

操作数地址对齐要求请参见通用地址对齐约束。
操作数地址重叠约束请参考通用地址重叠约束。
对于WholeReduceSum，其内部的相加方式采用二叉树方式，两两相加：
假设源操作数为128个half类型的数据[data0,data1,data2...data127]，一个repeat可以计算完，计算过程如下。
1. data0和data1相加得到data00，data2和data3相加得到data01...data124和data125相加得到data62，data126和data127相加得到data63；
2. data00和data01相加得到data000，data02和data03相加得到data001...data62和data63相加得到data031；
3. 以此类推，得到目的操作数为1个half类型的数据[data]。
需要注意的是两两相加的计算过程中，计算结果大于65504时结果保存为65504。例如源操作数为[60000,60000,-30000,100]，首先60000+60000溢出，结果为65504，第二步计算-30000+100=-29900，第四步计算65504-29900=35604。

调用示例

完整样例可参考WholeReduce系列归约指令样例。

tensor高维切分计算样例-mask连续模式

Text

// dstLocal,srcLocal均 为half类 型,srcLocal的 计 算 数 据 量 为512，连 续 排 布，计 算 结 果 也 需 要 连 续 排 布，使 用tensor高 维 切 分 计 算 接 口，设 定mask为 最 多 的128个 全 部 元 素 参 与 计 算
// 根 据 以 上 信 息，推 断 出repeatTime为4，dstRepStride为1，srcBlkStride为1，srcRepStride为8
AscendC::WholeReduceSum<half>(dstLocal, srcLocal, 128, 4, 1, 1, 8);

tensor高维切分计算样例-mask逐bit模式

Text

// dstLocal,srcLocal均 为half类 型，srcLocal的 计 算 数 据 量 为512，连 续 排 布，计 算 结 果 也 需 要 连 续 排 布，使 用tensor高 维 切 分 计 算 接 口，设 定mask为 最 多 的128个 全 部 元 素 参 与 计 算
uint64_t mask[2] = { 0xFFFFFFFFFFFFFFFF, 0xFFFFFFFFFFFFFFFF };

// 根 据 以 上 信 息，推 断 出repeatTime为4，dstRepStride为1，srcBlkStride为1，srcRepStride为8
AscendC::WholeReduceSum<half>(dstLocal, srcLocal, mask, 4, 1, 1, 8);

针对不同场景合理使用归约指令可以带来性能提升，相关介绍请参考选择低延迟指令，优化归约操作性能，具体样例请参考ReduceCustom。

2.4.2.1. DataCopy

2.4.3.1. 概 述

2.4.3.2. 矩 阵 计 算 分 形 介 绍

2.4.3.3. 数 据 搬 运

2.4.3.3.2. LoadData

2.4.3.4. 矩 阵 计 算

2.4.4.2. SIMD计 算 说 明

2.4.4.2.4. 掩 码

2.4.4.3. 基 础 算 术

2.4.4.4. 逻 辑 计 算

2.4.4.5. 复 合 计 算

2.4.4.6. 比 较 与 选 择

2.4.4.7. 类 型 转 换

2.4.4.7.1. 寄 存 器 配 置 说 明

2.4.4.8. 归 约 计 算

2.4.4.9. 数 据 排 布 转 换

2.4.4.10. 数 据 填 充

2.4.4.11. 排 序 组 合（ISASI）

2.4.4.12. 离 散 与 聚 合

2.4.4.13. 掩 码 操 作

2.4.4.14. 数 据 重 排（ISASI）

2.4.5.1. 寄 存 器 数 据 类 型

2.4.5.3. Reg数 据 搬 运

2.4.5.4. MaskReg计 算

2.4.5.5. 基 础 算 术

2.4.5.6. 逻 辑 计 算

2.4.5.7. 复 合 计 算

2.4.5.8. 比 较 与 选 择

2.4.5.9. 类 型 转 换

2.4.5.10. 归 约 计 算

2.4.5.11. 数 据 填 充

2.4.5.12. 离 散 与 聚 合

2.4.5.13. 数 据 重 排

2.4.5.14. 数 据 压 缩

2.4.5.15. 直 方 图 计 算

2.4.5.16. 索 引 操 作

2.4.5.17. 同 步 控 制

2.4.5.18. 系 统 变 量 访 问

2.4.5.19. 数 据 类 型

2.4.7.1. Pipe和Que框 架

2.4.7.1.1. TPipe

2.4.7.1.3. TBufPool

2.4.7.1.4. 自 定 义TBufPool

2.4.7.1.5. TQue

2.4.7.1.6. TSCM

2.4.7.1.7. TQueBind

2.4.7.1.8. TBuf

2.4.7.2. 临 时 空 间 管 理

2.4.7.2.1. workspace

2.4.7.3. 内 存 管 理

2.4.7.3.1. LocalMemAllocator

2.4.8.2. 核 内 同 步

2.4.8.2.3. TQueSync

2.4.8.2.7. Mutex（ISASI）

2.4.8.3. 核 间 同 步

2.4.8.4. 任 务 间 同 步

2.4.11.1. 上 板 打 印

2.4.11.2. 异 常 检 测

2.4.11.3. CPU孪 生 调 试

2.4.11.4. 性 能 统 计

2.4.12.1. 执 行 模 式

2.4.12.2. 系 统 初 始 化

2.4.12.3. 数 学 计 算

2.4.12.3.1. NumericLimits

2.4.12.4. 系 统 资 源 与 变 量

2.4.13.1. CubeResGroupHandle

2.4.13.2. GroupBarrier

2.4.13.3. KfcWorkspace

2.5.6.2. reg_load

2.5.6.2.1. asc_loadalign

2.5.6.3. reg_store

2.5.6.3.1. asc_storealign

2.5.6.4. reg_vector

2.6.1.1. Tanh接 口

2.6.1.2. Asin接 口

2.6.1.3. Sin接 口

2.6.1.4. Acos接 口

2.6.1.5. Cos接 口

2.6.1.6. Log接 口

2.6.1.7. Atan接 口

2.4.3.1. 概述

2.4.3.2. 矩阵计算分形介绍

2.4.3.3. 数据搬运

2.4.3.4. 矩阵计算

2.4.4.2. SIMD计算说明

2.4.4.2.4. 掩码

2.4.4.3. 基础算术

2.4.4.4. 逻辑计算

2.4.4.5. 复合计算

2.4.4.6. 比较与选择

2.4.4.7. 类型转换

2.4.4.7.1. 寄存器配置说明

2.4.4.8. 归约计算

2.4.4.9. 数据排布转换

2.4.4.10. 数据填充

2.4.4.11. 排序组合（ISASI）

2.4.4.12. 离散与聚合

2.4.4.13. 掩码操作

2.4.4.14. 数据重排（ISASI）

2.4.5.1. 寄存器数据类型

2.4.5.3. Reg数据搬运

2.4.5.4. MaskReg计算

2.4.5.5. 基础算术

2.4.5.6. 逻辑计算

2.4.5.7. 复合计算

2.4.5.8. 比较与选择

2.4.5.9. 类型转换

2.4.5.10. 归约计算

2.4.5.11. 数据填充

2.4.5.12. 离散与聚合

2.4.5.13. 数据重排

2.4.5.14. 数据压缩

2.4.5.15. 直方图计算

2.4.5.16. 索引操作

2.4.5.17. 同步控制

2.4.5.18. 系统变量访问

2.4.5.19. 数据类型

2.4.7.1. Pipe和Que框架

2.4.7.1.4. 自定义TBufPool

2.4.7.2. 临时空间管理

2.4.7.3. 内存管理

2.4.8.2. 核内同步

2.4.8.3. 核间同步

2.4.8.4. 任务间同步

2.4.11.1. 上板打印

2.4.11.2. 异常检测

2.4.11.3. CPU孪生调试

2.4.11.4. 性能统计

2.4.12.1. 执行模式

2.4.12.2. 系统初始化

2.4.12.3. 数学计算

2.4.12.4. 系统资源与变量

2.6.1.1. Tanh接口

2.6.1.2. Asin接口

2.6.1.3. Sin接口

2.6.1.4. Acos接口

2.6.1.5. Cos接口

2.6.1.6. Log接口

2.6.1.7. Atan接口

2.6.1.8. Power接口

2.6.1.9. Sinh接口

2.6.1.10. Cosh接口

2.6.1.11. Tan接口

2.6.1.12. Trunc接口

2.6.1.13. Frac接口

2.6.1.14. Erf接口

2.6.1.15. Erfc接口

2.6.1.16. Sign接口

2.6.1.17. Atanh接口

2.6.1.18. Asinh接口

2.6.1.19. Acosh接口

2.6.1.20. Floor接口

2.6.1.21. Ceil接口

2.6.1.22. Clamp接口

2.6.1.23. Round接口

2.6.1.24. Axpy接口

2.6.1.25. Exp接口

2.6.1.26. Lgamma接口

2.6.1.27. Digamma接口

2.6.1.28. Xor接口