WaitPreTaskEnd

说明

本接口为试验接口，在后续版本中可能会调整或改进，不保证后续兼容性。请开发者在使用过程中关注后续版本更新。

产品支持情况

产品	是否支持	备注
Ascend 950PR/Ascend 950DT	√	该接口生效
Atlas A3 训练系列产品/Atlas A3 推理系列产品	√	该接口生效
Atlas A2 训练系列产品/Atlas A2 推理系列产品	√	仅保证编译兼容，实际功能不生效。
Atlas 200I/500 A2 推理产品	√	仅保证编译兼容，实际功能不生效。
Atlas 推理系列产品AI Core	√	仅保证编译兼容，实际功能不生效。
Atlas 推理系列产品Vector Core	√	仅保证编译兼容，实际功能不生效。
Atlas 训练系列产品	√	仅保证编译兼容，实际功能不生效。
Kirin X90	√	仅保证编译兼容，实际功能不生效。
Kirin 9030	√	仅保证编译兼容，实际功能不生效。

功能说明

头文件路径为："basic_api/kernel_operator_common_intf.h"。

在SuperKernel的子Kernel中调用，调用前的指令可以和前序其他的子Kernel实现并行，提升整体性能。如图1所示，SuperKernel按序调用子Kernel，为保证子Kernel之间数据互不干扰，会在子Kernel间插入算子间同步进行保序，子Kernel_N+1调用该接口之前的指令会和前序子Kernel_N实现并行。

SuperKernel是一种算子的二进制融合技术，与源码融合不同，它聚焦于内核函数 (Kernel) 的二进制的调度方案，展开深度优化，于已编译的二进制代码基础上融合创建一个超级Kernel函数（SuperKernel），以调用子函数的方式调用多个其他内核函数，也就是子Kernel。相对于单算子下发，SuperKernel技术可以减少任务调度等待时间和调度开销，同时利用Task间隙资源进一步优化算子头开销。

开发者需要自行保证调用此接口前的指令不会与前序算子互相干扰而导致精度问题，推荐在整个算子第一条搬运指令前调用此接口。

图 1 通过WaitPreTaskEnd实现并行示意图

函数原型

C++

__aicore__ inline void WaitPreTaskEnd()

参数说明

无

返回值说明

无

约束说明

该接口适用于TorchAir图模式开发场景，且需在启用SuperKernel特性后方可生效。具体内容请参考《Ascend Extension for PyTorch》中“Pytorch图模式使用(TorchAir) > max-autotune模式功能 > 图内标定SuperKernel范围”章节。
在算子运行过程中，需要保证此接口在每个核上都被调用，且每个核上仅被调用一次。
若子Kernel某个TilingKey分支调用了此接口，则开发者需要保证当前算子可能会运行的所有TilingKey均调用了此接口，否则会出现因同步指令数量不匹配而卡住的现象。

调用示例

C++

AscendC::LocalMemAllocator<AscendC::Hardware::UB> ubAllocator;
AscendC::LocalTensor<T> src0Local = ubAllocator.Alloc<T, TOTAL_LENGTH>();
AscendC::LocalTensor<T> src1Local = ubAllocator.Alloc<T, TOTAL_LENGTH>();
AscendC::LocalTensor<T> dstLocal = ubAllocator.Alloc<T, TOTAL_LENGTH>();

// 在 第 一 条 搬 运 指 令 前 调 用，使 之 前 的 指 令 可 与 前 序 子kernel并 行 执 行。
AscendC::WaitPreTaskEnd();

AscendC::DataCopy(src0Local, src0Global, TOTAL_LENGTH);
AscendC::DataCopy(src1Local, src1Global, TOTAL_LENGTH);
AscendC::SetFlag<AscendC::HardEvent::MTE2_V>(EVENT_ID0);
AscendC::WaitFlag<AscendC::HardEvent::MTE2_V>(EVENT_ID0);

AscendC::Add(dstLocal, src0Local, src1Local, TOTAL_LENGTH);

完整样例请参考TaskSync样例。

2.4.2.1. DataCopy

2.4.3.1. 概 述

2.4.3.2. 矩 阵 计 算 分 形 介 绍

2.4.3.3. 矩 阵 计 算 的 搬 入

2.4.3.3.4. 矩 阵 数 据 搬 入 至L1 Buffer

2.4.3.3.5. 矩 阵 数 据 搬 入 至L0 Buffer

2.4.3.3.6. 辅 助 配 置 接 口

2.4.3.4. 数 据 搬 运

2.4.3.4.2. LoadData

2.4.3.5. 矩 阵 计 算

2.4.3.5.5. 关 键 特 性 说 明

2.4.3.5.6. 寄 存 器 配 置 说 明

2.4.3.6. 矩 阵 计 算 的 搬 出

2.4.3.6.10. L1到GM数 据 搬 运

2.4.3.6.11. 关 键 特 性 说 明

2.4.3.6.12. 寄 存 器 配 置 说 明

2.4.4.2. SIMD计 算 说 明

2.4.4.2.4. 掩 码

2.4.4.3. 数 据 搬 运

2.4.4.3.1. GM与UB数 据 搬 运

2.4.4.3.2. UB与UB数 据 搬 运

2.4.4.4. 基 础 算 术

2.4.4.5. 逻 辑 计 算

2.4.4.6. 复 合 计 算

2.4.4.7. 比 较 与 选 择

2.4.4.8. 类 型 转 换

2.4.4.8.1. 寄 存 器 配 置 说 明

2.4.4.9. 归 约 计 算

2.4.4.9.8. 寄 存 器 辅 助 接 口

2.4.4.10. 数 据 排 布 转 换

2.4.4.11. 数 据 填 充

2.4.4.12. 排 序 组 合（ISASI）

2.4.4.13. 离 散 与 聚 合

2.4.4.14. 掩 码 操 作

2.4.4.15. 数 据 重 排（ISASI）

2.4.5.1. 寄 存 器 数 据 类 型

2.4.5.3. Reg数 据 搬 运

2.4.5.4. MaskReg计 算

2.4.5.5. 基 础 算 术

2.4.5.6. 逻 辑 计 算

2.4.5.7. 复 合 计 算

2.4.5.8. 比 较 与 选 择

2.4.5.9. 类 型 转 换

2.4.5.10. 归 约 计 算

2.4.5.11. 数 据 填 充

2.4.5.12. 离 散 与 聚 合

2.4.5.13. 数 据 重 排

2.4.5.14. 数 据 压 缩

2.4.5.15. 直 方 图 计 算

2.4.5.16. 索 引 操 作

2.4.5.17. 同 步 控 制

2.4.5.18. 系 统 变 量 访 问

2.4.5.19. 数 据 类 型

2.4.7.1. Pipe和Que框 架

2.4.7.1.1. TPipe

2.4.7.1.3. TBufPool

2.4.7.1.4. 自 定 义TBufPool

2.4.7.1.5. TQue

2.4.7.1.6. TSCM

2.4.7.1.7. TQueBind

2.4.7.1.8. TBuf

2.4.7.2. 临 时 空 间 管 理

2.4.7.2.1. workspace

2.4.7.3. 内 存 管 理

2.4.7.3.1. LocalMemAllocator

2.4.8.2. 核 内 同 步

2.4.8.2.3. TQueSync

2.4.8.2.7. Mutex（ISASI）

2.4.8.3. 核 间 同 步

2.4.8.4. 任 务 间 同 步

2.4.11.1. 上 板 打 印

2.4.11.2. 异 常 检 测

2.4.11.3. CPU孪 生 调 试

2.4.11.4. 性 能 统 计

2.4.12.1. 执 行 模 式

2.4.12.2. 系 统 初 始 化

2.4.12.3. 数 学 计 算

2.4.12.3.1. NumericLimits

2.4.12.4. 系 统 资 源 与 变 量

2.4.13.1. CubeResGroupHandle

2.4.3.1. 概述

2.4.3.2. 矩阵计算分形介绍

2.4.3.3. 矩阵计算的搬入

2.4.3.3.4. 矩阵数据搬入至L1 Buffer

2.4.3.3.5. 矩阵数据搬入至L0 Buffer

2.4.3.3.6. 辅助配置接口

2.4.3.4. 数据搬运

2.4.3.5. 矩阵计算

2.4.3.5.5. 关键特性说明

2.4.3.5.6. 寄存器配置说明

2.4.3.6. 矩阵计算的搬出

2.4.3.6.10. L1到GM数据搬运

2.4.3.6.11. 关键特性说明

2.4.3.6.12. 寄存器配置说明

2.4.4.2. SIMD计算说明

2.4.4.2.4. 掩码

2.4.4.3. 数据搬运

2.4.4.3.1. GM与UB数据搬运

2.4.4.3.2. UB与UB数据搬运

2.4.4.4. 基础算术

2.4.4.5. 逻辑计算

2.4.4.6. 复合计算

2.4.4.7. 比较与选择

2.4.4.8. 类型转换

2.4.4.8.1. 寄存器配置说明

2.4.4.9. 归约计算

2.4.4.9.8. 寄存器辅助接口

2.4.4.10. 数据排布转换

2.4.4.11. 数据填充

2.4.4.12. 排序组合（ISASI）

2.4.4.13. 离散与聚合

2.4.4.14. 掩码操作

2.4.4.15. 数据重排（ISASI）

2.4.5.1. 寄存器数据类型

2.4.5.3. Reg数据搬运

2.4.5.4. MaskReg计算

2.4.5.5. 基础算术

2.4.5.6. 逻辑计算

2.4.5.7. 复合计算

2.4.5.8. 比较与选择

2.4.5.9. 类型转换

2.4.5.10. 归约计算

2.4.5.11. 数据填充

2.4.5.12. 离散与聚合

2.4.5.13. 数据重排

2.4.5.14. 数据压缩

2.4.5.15. 直方图计算

2.4.5.16. 索引操作

2.4.5.17. 同步控制

2.4.5.18. 系统变量访问

2.4.5.19. 数据类型

2.4.7.1. Pipe和Que框架

2.4.7.1.4. 自定义TBufPool

2.4.7.2. 临时空间管理

2.4.7.3. 内存管理

2.4.8.2. 核内同步

2.4.8.3. 核间同步

2.4.8.4. 任务间同步

2.4.11.1. 上板打印

2.4.11.2. 异常检测

2.4.11.3. CPU孪生调试

2.4.11.4. 性能统计

2.4.12.1. 执行模式

2.4.12.2. 系统初始化

2.4.12.3. 数学计算

2.4.12.4. 系统资源与变量

2.6.1.1. Tanh接口

2.6.1.2. Asin接口

2.6.1.3. Sin接口

2.6.1.4. Acos接口

2.6.1.5. Cos接口

2.6.1.6. Log接口

2.6.1.7. Atan接口

2.6.1.8. Power接口

2.6.1.9. Sinh接口

2.6.1.10. Cosh接口

2.6.1.11. Tan接口

2.6.1.12. Trunc接口

2.6.1.13. Frac接口

2.6.1.14. Erf接口