InitDetermineComputeWorkspace
产 品 支 持 情 况
功 能 说 明
头 文 件 路 径 为:"basic_api/kernel_operator_determine_compute_sync_intf.h"。
InitDetermineComputeWorkspace是 基 于 核 间 顺 序 执 行 的 确 定 性 计 算 的 初 始 化 配 置 接 口,能 够 初 始 化GM共 享 内 存 的 值,完 成 初 始 化 后 才 可 以 调 用WaitPreBlock和NotifyNextBlock。以 上 三 个 接 口 共 同 完 成 基 于 核 间 顺 序 执 行 的 确 定 性 计 算,确 定 性 计 算 的 具 体 含 义 请 参 考确 定 性 计 算。
函 数 原 型
C++
__aicore__ inline void InitDetermineComputeWorkspace(GlobalTensor<int32_t>& gmWorkspace, LocalTensor<int32_t>& ubWorkspace)
参 数 说 明
表 1 接 口 参 数 说 明
| 参 数 名 称 | 输 入/输 出 | 含 义 |
|---|---|---|
| gmWorkspace | 输 入 | 临 时 空 间,初 始 化 核 间 同 步 的 共 享 内 存,类 型 为GlobalTensor。 |
| ubWorkspace | 输 入 | 临 时 空 间,用 于 操 作gmWorkspace,类 型 为LocalTensor。 |
返 回 值 说 明
无
约 束 说 明
- gmWorkspace申 请 的 空 间 最 少 要 求 为:GetBlockNum()*32Bytes,ubWorkspace申 请 的 空 间 最 少 要 求 为:GetBlockNum()*32+32Bytes。
- 与IBSet/SyncAll不 同,该 接 口 输 入 参 数gmWorkspace缓 存 的 值 不 需 要 初 始 化 为0。
- 使 用 该 接 口 进 行 多 核 控 制 时,算 子 调 用 时 指 定 的 逻 辑AI Core核 数numBlocks必 须 保 证 不 大 于 实 际 运 行 该 算 子 的AI处 理 器 核 数,否 则 框 架 进 行 多 轮 调 度 时 会 插 入 异 常 同 步,导 致Kernel“卡 死”现 象。
调 用 示 例
C++
// 初 始 化GM共 享 内 存 的 同 步 状 态,必 须 在 核 函 数 开 始 时 首 先 调 用。
AscendC::InitDetermineComputeWorkspace(gmWorkspace, ubWorkspace);
for(int64_t i = 0; i < tileNum; i++) {
AscendC::LocalTensor<T> srcLocal = que.AllocTensor<T>();
AscendC::DataCopy(srcLocal, srcGlobal[i * tileCount], tileCount);
// 等 待 前 序 核(blockIdx-1)完 成 操 作。
AscendC::WaitPreBlock(gmWorkspace, ubWorkspace);
// 开 启 原 子 累 加。
AscendC::SetAtomicAdd<T>();
AscendC::DataCopy(dstGlobal[i * tileCount], srcLocal, tileCount);
AscendC::DisableDmaAtomic();
// 通 知 后 序 核(blockIdx+1)当 前 核 已 完 成。
AscendC::NotifyNextBlock(gmWorkspace, ubWorkspace);
que.FreeTensor(srcLocal);
}
完 整 样 例 请 参 考sequential_block_sync示 例。