Skip to content
版 本

SetAtomicAdd

产 品是 否 支 持
Ascend 950PR/Ascend 950DT
Atlas A3 训 练 系 列 产 品/Atlas A3 推 理 系 列 产 品
Atlas A2 训 练 系 列 产 品/Atlas A2 推 理 系 列 产 品
Atlas 200I/500 A2 推 理 产 品
Atlas 推 理 系 列 产 品AI Core
Atlas 推 理 系 列 产 品Vector Core
x
Atlas 训 练 系 列 产 品

功 能 说 明

头 文 件 路 径 为:"basic_api/kernel_operator_set_atomic_intf.h"

对 后 续 目 的 地 址 为GM的 数 据 搬 运 开 启 原 子 累 加。原 子 累 加 过 程:将 待 拷 贝 的 内 容 和GM已 有 内 容 进 行 求 和,然 后 将 求 和 结 果 写 入GM。SetAtomicAdd接 口 可 通 过 模 板 参 数 设 定 不 同 的 累 加 数 据 类 型。

函 数 原 型

C++
template <typename T>
__aicore__ inline void SetAtomicAdd()

参 数 说 明

表 1 模 板 参 数 说 明

参 数 名描 述
T设 定 不 同 的 原 子 累 加 操 作 数 据 类 型。

数 据 类 型

  • Ascend 950PR/Ascend 950DT,支 持 的 数 据 类 型 为int8_t、int16_t、half、bfloat16_t、int32_t、float。
  • Atlas A3 训 练 系 列 产 品/Atlas A3 推 理 系 列 产 品,支 持 的 数 据 类 型 为int8_t、int16_t、half、bfloat16_t、int32_t、float。
  • Atlas A2 训 练 系 列 产 品/Atlas A2 推 理 系 列 产 品,支 持 的 数 据 类 型 为int8_t、int16_t、half、bfloat16_t、int32_t、float。
  • Atlas 200I/500 A2 推 理 产 品,支 持 的 数 据 类 型 为int16_t、half、int32_t、float。
  • Atlas 推 理 系 列 产 品AI Core,支 持 的 数 据 类 型 为int16_t、half、float。
  • Atlas 训 练 系 列 产 品,支 持 的 数 据 类 型 为float。

返 回 值 说 明

约 束 说 明

  • Ascend 950PR/Ascend 950DT,支 持 的 数 据 通 路 为UB/L0C Buffer->GM。
  • Atlas A3 训 练 系 列 产 品/Atlas A3 推 理 系 列 产 品,支 持 的 数 据 通 路 为UB/L0C Buffer/L1 Buffer->GM。
  • Atlas A2 训 练 系 列 产 品/Atlas A2 推 理 系 列 产 品,支 持 的 数 据 通 路 为UB/L0C Buffer/L1 Buffer->GM。
  • Atlas 200I/500 A2 推 理 产 品,支 持 的 数 据 通 路 为UB/L0C Buffer/L1 Buffer->GM。
  • Atlas 推 理 系 列 产 品AI Core,支 持 的 数 据 通 路 为UB->GM。
  • Atlas 训 练 系 列 产 品,支 持 的 数 据 通 路 为UB->GM。
  • 累 加 操 作 完 成 后,建 议 通 过DisableDmaAtomic关 闭 原 子 累 加,以 免 影 响 后 续 相 关 指 令 功 能。
  • 该 接 口 执 行 前 不 会 自 动 清 零GM数 据。开 发 者 需 根 据 算 子 逻 辑 判 断 是 否 清 零,如 需 清 零,请 在 执 行 前 手 动 完 成。
  • SetAtomicAdd内 部 已 集 成 与SetAtomicType相 同 的 功 能。建 议 调 用 上 述 接 口 时,通 过 设 置 模 板 参 数 显 式 指 定 原 子 操 作 的 数 据 类 型,无 需 额 外 调 用SetAtomicType接 口。

调 用 示 例

C++
AscendC::LocalMemAllocator<AscendC::Hardware::UB> ubAllocator;
AscendC::LocalTensor<T> srcLocal = ubAllocator.Alloc<T, SIZE>();

AscendC::DisableDmaAtomic();
AscendC::DataCopy(srcLocal, srcGlobal, SIZE);
AscendC::SetFlag<AscendC::HardEvent::MTE2_MTE3>(EVENT_ID0);
AscendC::WaitFlag<AscendC::HardEvent::MTE2_MTE3>(EVENT_ID0);
AscendC::SyncAll();

// 开 启 原 子 累 加,将UB数 据 原 子 累 加 到GM
AscendC::SetAtomicAdd<T>();
AscendC::DataCopy(dstGlobal, srcLocal, SIZE);

// 关 闭 原 子 累 加
AscendC::DisableDmaAtomic();

完 整 样 例 请 参 考DataMovementWithAtomicOperations样 例

免 责 声 明:本 站 内 容 由 asc-devkit 仓 master 分 支 自 动 编 译 生 成,属 于 持 续 开 发 版 本,可 能 存 在 缺 陷,仅 供 预 览 与 参 考。如 需 稳 定 及 商 用 资 料,请 查 阅 官 方 昇 腾 社 区