Skip to content
版 本

ReadGmByPassDCache(ISASI)

产 品 支 持 情 况

产 品是 否 支 持
Ascend 950PR/Ascend 950DT
Atlas A3 训 练 系 列 产 品/Atlas A3 推 理 系 列 产 品
Atlas A2 训 练 系 列 产 品/Atlas A2 推 理 系 列 产 品
Atlas 200I/500 A2 推 理 产 品
x
Atlas 推 理 系 列 产 品AI Core
x
Atlas 推 理 系 列 产 品Vector Core
x
Atlas 训 练 系 列 产 品
x

功 能 说 明

头 文 件 路 径 为:"basic_api/kernel_operator_scalar_intf.h"

不 经 过DCache从GM地 址 上 读 数 据。使 用 场 景:

  • 当 多 个 核 写 入 的 数 据 落 在 同 一 条Cache Line内 时,经 过DCache的 读 写 将 以64B为 粒 度,可 能 引 发 多 核 数 据 随 机 覆 盖 问 题(参 考DataCacheCleanAndInvalid调 用 示 例3)。使 用 该 接 口 不 经 过DCache直 接 按 操 作 数 大 小 读GM,可 避 免 此 问 题。
  • 经 过DCache写GM时 可 能 导 致 多 核 间 的 数 据 不 一 致 问 题(详 细 原 因 请 参 考Cache写 策 略 与Cache一 致 性 问 题),使 用 该 接 口 不 经 过DCache直 接 向GM写 数 据,可 避 免 此 问 题。

函 数 原 型

C++
template <typename T>
__aicore__ inline T ReadGmByPassDCache(__gm__ T* addr)

参 数 说 明

表 1 模 板 参 数 说 明

参 数 名描 述
T操 作 数 的 数 据 类 型。

表 2 接 口 参 数 说 明

参 数 名输 入/输 出含 义
addr输 入源GM地 址。

数 据 类 型

支 持 的 数 据 类 型 为int8_t、uint8_t、int16_t、uint16_t、int32_t、uint32_t、int64_t、uint64_t。

返 回 值 说 明

源GM地 址 上 的 数 据。

约 束 说 明

标 量 单 元 连 续 读 取 相 同GM地 址 时,会 长 期 占 用 总 线(Bus),导 致 其 他 核 无 法 向 该 地 址 写 入 数 据,进 而 引 发 系 统 卡 死。在 此 场 景 下,建 议 在 标 量 读 指 令 后 插 入 若 干 空 操 作 指 令(Nop)释 放 总 线,插 入Nop指 令 的 数 量 可 按"需 同 步 的 核 数×200"估 算(如4个 核 时 建 议 插 入800条)。

调 用 示 例

C++
__gm__ int32_t *addr = const_cast<__gm__ int32_t *>(srcGlobal.GetPhyAddr());
int32_t value = AscendC::ReadGmByPassDCache<int32_t>(addr);

// 通 过Scalar读 写 相 同GM时,需 要 让 读 操 作,空 出 总 线,避 免 长 时 占 用。
int target = -1;
while (target != 0) {
     target = ReadGmByPassDCache(addr);
     Nop<800>();
}

完 整 样 例 请 参 考GmByPassDCache类 样 例

免 责 声 明:本 站 内 容 由 asc-devkit 仓 master 分 支 自 动 编 译 生 成,属 于 持 续 开 发 版 本,可 能 存 在 缺 陷,仅 供 预 览 与 参 考。如 需 稳 定 及 商 用 资 料,请 查 阅 官 方 昇 腾 社 区