Skip to content
版 本

SetNextTaskStart

说 明

本 接 口 为 试 验 接 口,在 后 续 版 本 中 可 能 会 调 整 或 改 进,不 保 证 后 续 兼 容 性。请 开 发 者 在 使 用 过 程 中 关 注 后 续 版 本 更 新。

产 品 支 持 情 况

产 品是 否 支 持备 注
Ascend 950PR/Ascend 950DT
该 接 口 生 效
Atlas A3 训 练 系 列 产 品/Atlas A3 推 理 系 列 产 品
该 接 口 生 效
Atlas A2 训 练 系 列 产 品/Atlas A2 推 理 系 列 产 品
仅 保 证 编 译 兼 容,实 际 功 能 不 生 效。
Atlas 200I/500 A2 推 理 产 品
仅 保 证 编 译 兼 容,实 际 功 能 不 生 效。
Atlas 推 理 系 列 产 品AI Core
仅 保 证 编 译 兼 容,实 际 功 能 不 生 效。
Atlas 推 理 系 列 产 品Vector Core
仅 保 证 编 译 兼 容,实 际 功 能 不 生 效。
Atlas 训 练 系 列 产 品
仅 保 证 编 译 兼 容,实 际 功 能 不 生 效。
Kirin X90
仅 保 证 编 译 兼 容,实 际 功 能 不 生 效。
Kirin 9030
仅 保 证 编 译 兼 容,实 际 功 能 不 生 效。

功 能 说 明

头 文 件 路 径 为:"basic_api/kernel_operator_common_intf.h"

SuperKernel的 子Kernel中 调 用,调 用 后 的 指 令 可 以 和 后 续 其 他 的 子Kernel实 现 并 行,提 升 整 体 性 能。如图1所 示,SuperKernel按 序 调 用 子Kernel,为 保 证 子Kernel之 间 数 据 互 不 干 扰,会 在 子Kernel间 插 入 算 子 间 同 步 进 行 保 序,子KernelN-1调 用 该 接 口 后,之 后 的 指 令 会 和 后 续 子KernelN实 现 并 行。

SuperKernel是 一 种 算 子 的 二 进 制 融 合 技 术,与 源 码 融 合 不 同,它 聚 焦 于 内 核 函 数 (Kernel) 的 二 进 制 的 调 度 方 案,展 开 深 度 优 化,于 已 编 译 的 二 进 制 代 码 基 础 上 融 合 创 建 一 个 超 级Kernel函 数(SuperKernel),以 调 用 子 函 数 的 方 式 调 用 多 个 其 他 内 核 函 数,也 就 是 子Kernel。相 对 于 单 算 子 下 发,SuperKernel技 术 可 以 减 少 任 务 调 度 等 待 时 间 和 调 度 开 销,同 时 利 用Task间 隙 资 源 进 一 步 优 化 算 子 头 开 销。

开 发 者 需 要 自 行 保 证 调 用 此 接 口 后 的 指 令 不 会 与 后 序 算 子 互 相 干 扰 而 导 致 精 度 问 题,推 荐 在 整 个 算 子 最 后 一 条 搬 运 指 令 后 调 用 此 接 口。

图 1 通 过SetNextTaskStart实 现 并 行 示 意 图

函 数 原 型

  • 该 原 型 支 持 如 下 产 品 型 号:

    Ascend 950PR/Ascend 950DT

    Atlas A3 训 练 系 列 产 品/Atlas A3 推 理 系 列 产 品

    Atlas A2 训 练 系 列 产 品/Atlas A2 推 理 系 列 产 品

    Atlas 200I/500 A2 推 理 产 品

    Kirin X90

    Kirin 9030

    C++
    template<pipe_t AIV_PIPE = PIPE_MTE3, pipe_t AIC_PIPE = PIPE_FIX>
    __aicore__ inline void SetNextTaskStart()
    
  • 该 原 型 支 持 如 下 产 品 型 号:

    Atlas 推 理 系 列 产 品AI Core

    Atlas 推 理 系 列 产 品Vector Core

    Atlas 训 练 系 列 产 品

    C++
    template<pipe_t AIV_PIPE = PIPE_MTE3, pipe_t AIC_PIPE = PIPE_MTE3>
    __aicore__ inline void SetNextTaskStart()
    

参 数 说 明

表 1 模 板 参 数 说 明

参 数 名描 述
AIV_PIPESetNextTaskStart之 后 运 行 的 指 令,如 果 位 于AIV上 的AIV_PIPE流 水,可 以 与 后 序 算 子 并 行。AIV_PIPE的 取 值 范 围 为PIPE_MTE2、PIPE_MTE3、PIPE_S、PIPE_V。
AIC_PIPESetNextTaskStart之 后 运 行 的 指 令,如 果 位 于AIC上 的AIC_PIPE流 水,可 以 与 后 序 算 子 并 行。AIC_PIPE的 取 值 范 围 为PIPE_MTE1、PIPE_MTE2、PIPE_MTE3、PIPE_FIX、PIPE_M。

说 明

不 同 的 硬 件 架 构,每 一 种 硬 件 流 水 类 型 包 含 的 具 体 流 水 会 有 所 差 异,流 水 类 型 详 细 介 绍 请 参 考硬 件 流 水 类 型

返 回 值 说 明

约 束 说 明

  • 该 接 口 适 用 于TorchAir图 模 式 开 发 场 景,且 需 在 启 用SuperKernel特 性 后 方 可 生 效。具 体 内 容 请 参 考《Ascend Extension for PyTorch》中“Pytorch图 模 式 使 用(TorchAir) > max-autotune模 式 功 能 > 图 内 标 定SuperKernel范 围”章 节。
  • 在 算 子 运 行 过 程 中,需 要 保 证 此 接 口 在 每 个 核 上 都 被 调 用,且 每 个 核 上 仅 被 调 用 一 次。
  • 若 子Kernel某 个TilingKey分 支 调 用 了 此 接 口,则 开 发 者 需 要 保 证 当 前 算 子 可 能 会 运 行 的 所 有TilingKey均 调 用 了 此 接 口,否 则 会 出 现 因 同 步 指 令 数 量 不 匹 配 而 卡 住 的 现 象。

调 用 示 例

C++
AscendC::DataCopy(dstGlobal, dstLocal, TOTAL_LENGTH);
// 在 最 后 一 条 搬 运 指 令 后 调 用,使 之 后 的 指 令 可 与 后 续 子kernel并 行 执 行。
AscendC::SetNextTaskStart();

完 整 样 例 请 参 考TaskSync样 例

免 责 声 明:本 站 内 容 由 asc-devkit 仓 master 分 支 自 动 编 译 生 成,属 于 持 续 开 发 版 本,可 能 存 在 缺 陷,仅 供 预 览 与 参 考。如 需 稳 定 及 商 用 资 料,请 查 阅 官 方 昇 腾 社 区