asc_atomic_inc
产 品 支 持 情 况
- Ascend 950PR/Ascend 950DT:支 持
- Atlas A3 训 练 系 列 产 品/Atlas A3 推 理 系 列 产 品:不 支 持
- Atlas A2 训 练 系 列 产 品/Atlas A2 推 理 系 列 产 品:不 支 持
- Atlas 200I/500 A2 推 理 产 品:不 支 持
- Atlas 推 理 系 列 产 品AI Core:不 支 持
- Atlas 推 理 系 列 产 品Vector Core:不 支 持
- Atlas 训 练 系 列 产 品:不 支 持
功 能 说 明
对Unified Buffer或Global Memory上address的 数 值 进 行 原 子 加1操 作,如 果address上 的 数 值 大 于 等 于 指 定 数 值val,则 对address赋 值 为0,否 则 将address上 数 值 加1。
函 数 原 型
Text
inline uint32_t asc_atomic_inc(uint32_t *address, uint32_t val)
Text
inline uint64_t asc_atomic_inc(uint64_t *address, uint64_t val)
参 数 说 明
表 1 参 数 说 明
| 参 数 名 | 输 入/输 出 | 描 述 |
|---|---|---|
| address | 输 出 | Unified Buffer或Global Memory的 地 址。 |
| val | 输 入 | 源 操 作 数。 |
不 同 数 据 类 型 支 持 的 内 存 范 围 说 明 如 下:
表 2 不 同 数 据 类 型 支 持 的 内 存 范 围
| 参 数 数 据 类 型 | 支 持 的 内 存 空 间 |
|---|---|
| uint32_t | Unified Buffer、Global Memory |
| uint64_t | Global Memory |
返 回 值 说 明
Unified Buffer或Global Memory上 的 初 始 数 据。
约 束 说 明
无
需 要 包 含 的 头 文 件
使 用 该 接 口 需 要 包 含"simt_api/device_atomic_functions.h"头 文 件。
Text
#include "simt_api/device_atomic_functions.h"
调 用 示 例
示 例 场 景 为:多 个 线 程 向 固 定 容 量 的 环 形 缓 冲 区 写 入 任 务,使 用asc_atomic_inc接 口 获 取 递 增 并 自 动 回 绕 的 槽 位 编 号。返 回 值 是 更 新 前 的 旧 计 数,可 作 为 本 线 程 获 得 的 槽 位。输 入 参 数 说 明 如 下:
| 名 称 | 说 明 |
|---|---|
ticket | Global Memory中 的 环 形 计 数 器,kernel启 动 前 初 始 化。 |
slots | 保 存 每 个 线 程 获 得 的 槽 位 编 号。 |
capacity | 环 形 队 列 容 量。 |
n | 需 要 分 配 槽 位 的 线 程 数。 |
核 心 代 码 实 现 如 下:
SIMT编 程 场 景:
C++__global__ __launch_bounds__(256) void allocate_ring_slot(uint32_t *ticket, uint32_t *slots, uint32_t capacity, uint32_t n) { uint32_t idx = blockIdx.x * blockDim.x + threadIdx.x; if (idx >= n) { return; } uint32_t old_ticket = asc_atomic_inc(ticket, capacity - 1U); slots[idx] = old_ticket; }SIMD与SIMT混 合 编 程 场 景:
SIMD与SIMT混 合 编 程 场 景,需 要 显 式 使 用 地 址 空 间 限 定 符 表 示 地 址 空 间:__gm__表 示Global Memory内 存 空 间,__ubuf__表 示Unified Buffer内 存 空 间。
C++__simt_vf__ __launch_bounds__(1024) inline void allocate_ring_slot(__gm__ uint32_t *ticket, __gm__ uint32_t *slots, uint32_t capacity, uint32_t n) { uint32_t idx = blockIdx.x * blockDim.x + threadIdx.x; if (idx >= n) { return; } uint32_t old_ticket = asc_atomic_inc(ticket, capacity - 1U); slots[idx] = old_ticket; }
输 出 结 果 示 例 如 下:
Text
ticket before: 0
capacity: 4
n: 6
slots: 0, 1, 2, 3, 0, 1 // 顺 序 由 实 际 原 子 执 行 顺 序 决 定
ticket after: 2