SetAtomicMax(ISASI)
产 品 支 持 情 况
| 产 品 | 是 否 支 持 |
|---|---|
| √ | |
| √ | |
| √ | |
| x | |
| x | |
| x | |
| x |
功 能 说 明
头 文 件 路 径 为:"basic_api/kernel_operator_set_atomic_intf.h"。
设 置 后 续 搬 运 到GM的 数 据 是 否 执 行 原 子 比 较:将 待 拷 贝 的 内 容 和GM已 有 内 容 进 行 比 较,然 后 将 最 大 值 写 入GM。SetAtomicMax接 口 可 通 过 设 置 模 板 参 数 来 设 定 不 同 的 数 据 类 型。
函 数 原 型
C++
template <typename T>
__aicore__ inline void SetAtomicMax()
参 数 说 明
表 1 模 板 参 数 说 明
| 参 数 名 | 描 述 |
|---|---|
| T | 设 定 不 同 的 原 子 最 大 操 作 数 据 类 型。 |
数 据 类 型
支 持 的 数 据 类 型 为int8_t、int16_t、half、bfloat16_t、int32_t、float。
返 回 值 说 明
无
约 束 说 明
- Ascend 950PR/Ascend 950DT,支 持 的 数 据 通 路 为UB/L0C Buffer->GM。
- Atlas A3 训 练 系 列 产 品/Atlas A3 推 理 系 列 产 品,支 持 的 数 据 通 路 为UB/L0C Buffer/L1 Buffer->GM。
- Atlas A2 训 练 系 列 产 品/Atlas A2 推 理 系 列 产 品,支 持 的 数 据 通 路 为UB/L0C Buffer/L1 Buffer->GM。
- 使 用 完 后,建 议 通 过DisableDmaAtomic关 闭 原 子 最 大 操 作,以 免 影 响 后 续 相 关 功 能。
- 该 接 口 执 行 前 不 会 自 动 清 零GM数 据。开 发 者 需 根 据 算 子 逻 辑 判 断 是 否 清 零,如 需 清 零,请 在 执 行 前 手 动 完 成。
- SetAtomicMax内 部 已 集 成 与SetAtomicType相 同 的 功 能。建 议 调 用 上 述 接 口 时,通 过 设 置 模 板 参 数 显 式 指 定 原 子 操 作 的 数 据 类 型,无 需 额 外 调 用SetAtomicType接 口。
调 用 示 例
C++
#include "kernel_operator.h"
constexpr uint32_t SIZE = 256;
__aicore__ inline void CopyIn()
{
AscendC::LocalTensor<T> srcLocal = queueSrc.AllocTensor<T>();
// 清 空 原 子 操 作 的 状 态
AscendC::DisableDmaAtomic();
AscendC::DataCopy(srcLocal, srcGlobal, SIZE);
queueSrc.EnQue(srcLocal);
// 核 间 同 步
AscendC::SyncAll();
}
__aicore__ inline void CopyOut()
{
AscendC::LocalTensor<T> srcLocal = queueSrc.DeQue<T>();
// 开 启 原 子MAX模 式,3个 核 取 最 大 值
AscendC::SetAtomicMax<T>();
AscendC::DataCopy(dstGlobal, srcLocal, SIZE);
// 关 闭 原 子 操 作
AscendC::DisableDmaAtomic();
queueSrc.FreeTensor(srcLocal);
}
/*
每 个 核 的 输 入 数 据 为:
Src0: [1,1,1,1,1,...,1] // 256个1
Src1: [2,2,2,2,2,...,2] // 256个2
最 终 输 出 数 据: [2,2,2,2,2,...,2] // 256个2
*/
完 整 样 例 请 参 考DataMovementWithAtomicOperations样 例。