Skip to content
版 本

asc_copy_l12l0b_sparse

产 品 支 持 情 况

产 品是 否 支 持
Atlas A3 训 练 系 列 产 品/Atlas A3 推 理 系 列 产 品
Atlas A2 训 练 系 列 产 品/Atlas A2 推 理 系 列 产 品

功 能 说 明

用 于 搬 运 存 放 在L1 Buffer里 的512B大 小 的 稠 密 权 重 矩 阵 到L0B Buffer里,同 时 读 取128B大 小 的 索 引 矩 阵 用 于 稠 密 矩 阵 的 稀 疏 化。

索 引 矩 阵 在 一 个int8_t的 地 址 中 的 排 布 是 逆 序 排 布 的,例 如:索 引 矩 阵1 2 0 1 0 2 1 0,在 地 址 中 的 排 布 为1 0 2 1 0 1 2 0,其 中1 0 2 1(对 应 索 引 矩 阵 前 四 位1 2 0 1)拼 成 一 个int8_t数 据,0 1 2 0(对 应 索 引 矩 阵 后 四 位0 2 1 0)拼 成 一 个int8_t数 据。

函 数 原 型

  • 高 维 切 分 搬 运

    C++
    __aicore__ inline void asc_copy_l12l0b_sparse(__cb__ int8_t* dst, __cbuf__ int8_t* src, __cbuf__ int8_t* index, uint16_t start_index, uint8_t repeat)
    
  • 同 步 搬 运

    C++
    __aicore__ inline void asc_copy_l12l0b_sparse_sync(__cb__ int8_t* dst, __cbuf__ int8_t* src, __cbuf__ int8_t* index, uint16_t start_index, uint8_t repeat)
    

参 数 说 明

表1参 数 说 明

参 数 名输 入/输 出描 述
dst输 出目 的 操 作 数 在L0B Buffer的 起 始 地 址。
src输 入源 操 作 数 在L1 Buffer的 起 始 地 址。
index输 入索 引 矩 阵 在L1 Buffer的 起 始 地 址。
start_index输 入分 形 矩 阵ID,说 明 搬 运 起 始 位 置 为 源 操 作 数 中 第 几 个 分 形(0为 源 操 作 数 中 第1个 分 形 矩 阵)。取 值 范 围:[0, 65535]。单 位:512B。
repeat输 入迭 代 次 数,每 个 迭 代 可 以 处 理512B数 据。取 值 范 围:[1, 255]。

返 回 值 说 明

流 水 类 型

PIPE_MTE1

约 束 说 明

  • 操 作 数 地 址 重 叠 约 束 请 参 考通 用 地 址 重 叠 约 束
  • dst、src的 起 始 地 址 需 要32字 节 对 齐。
  • repeat为0表 示 不 执 行。
  • start_index不 能 小 于0。
  • 不 支 持 转 置 功 能。

调 用 示 例

C++
__cb__ int8_t dst[256];
__cbuf__ int8_t src[256];
__cbuf__ int8_t index[64];
uint16_t start_index = 1;
uint8_t repeat = 8;
asc_copy_l12l0b_sparse(dst, src, index, start_index, repeat);

免 责 声 明:本 站 内 容 由 asc-devkit 仓 master 分 支 自 动 编 译 生 成,属 于 持 续 开 发 版 本,可 能 存 在 缺 陷,仅 供 预 览 与 参 考。如 需 稳 定 及 商 用 资 料,请 查 阅 官 方 昇 腾 社 区