网站地图 | Tags | 热门标准 | 最新标准 | 订阅
您当前的位置:首页 > GB/T 46345-2025 人工智能 深度学习编译器接口 > 下载地址2

GB/T 46345-2025 人工智能 深度学习编译器接口

  • 名  称:GB/T 46345-2025 人工智能 深度学习编译器接口 - 下载地址2
  • 下载地址:[下载地址2]
  • 提 取 码
  • 浏览次数:3
下载帮助: 发表评论 加入收藏夹 错误报告目录
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表
新闻评论(共有 0 条评论)

资料介绍

  ICS 35.240 CCS L 70

  中 华 人 民 共 和 国 国 家 标 准

  GB/T 46345—2025

  人工智能 深度学习编译器接口

  Artificialintelligence—Interfaceofdeep learning compiler

  2025-10-05发布 2025-10-05实施

  国家市场监督管理总局国家标准化管理委员会

  

  发

  

  布

  GB/T 46345—2025

  目 次

  前言 Ⅲ

  1 范围 1

  2 规范性引用文件 1

  3 术语和定义 1

  4 缩略语 2

  5 概述 2

  5. 1 技术架构 2

  5. 2 技术流程 3

  5. 3 接口测试 4

  6 图生成模块接 口 4

  6. 1 概述 4

  6. 2 计算图加载 5

  6. 3 计算图编辑 6

  7 图转换模块接 口 6

  7. 1 概述 6

  7. 2 图优化 6

  7. 3 图拆分 6

  7. 4 图递降 7

  8 图调度模块接 口 8

  8. 1 概述 8

  8. 2 资源管理 8

  8. 3 子图调度 9

  9 领域特定语言接 口 9

  10 算子生成器接 口 10

  附录 A (规范性) 接口测试方法 11

  A. 1 图生成模块接口符合性测试 11

  A. 2 图转换模块接口符合性测试 11

  A. 3 图调度模块接口符合性测试 13

  A. 4 领域特定语言接口符合性测试 13

  A. 5 算子生成器接口符合性测试 14

  A. 6 接口性能与稳定性测试 14

  附录 B (规范性) 计算图编辑接 口 15

  附录 C (规范性) DSL基础操作接 口 18

  参考文献 24

  Ⅰ

  GB/T 46345—2025

  前 言

  本文件按照 GB/T 1. 1—2020《标准化工作导则 第 1部分 :标准化文件的结构和起草规则》的规定起草 。

  请注意本文件的某些内容可能涉及专利 。本文件的发布机构不承担识别专利的责任 。

  本文件由全国信息技术标准化技术委员会(SAC/TC28)提出并归 口 。

  本文件起草单位 : 中国电子技术标准化研究院 、上海人工智能创新中心 、华为技术有限公司 、北京百度网讯科技有限公司 、上海商汤科技有限公司 、北京大学 、北京智源人工智能研究院 、上海市人工智能行业协会 、上海燧原科技有限公司 、上海壁仞科技股份有限公司 、青岛港国际股份有限公司 、深圳赛西信息技术有限公司 、浪潮电子信息产业股份有限公司 、中国移动通信集团有限公司 、浙江大华技术股份有限公司 、上海天数智芯半导体有限公司 、杭州海康威视数字技术股份有限公司 、之江实验室 、平头哥(上海)半导体技术有限公司 、昆仑芯(北京)科技有限公司 、中科寒武纪科技股份有限公司 、深圳云天励飞技术股份有限公司 、中兴通讯股份有限公司 、上海仪电(集团)有限公司 、上海智能算力科技有限公司 、北京大学长沙计算与数字经济研究院 、上海文鳐信息科技有限公司 、国电南瑞科技股份有限公司信息系统集成分公司 、上海人工智能研究院有限公司 、科大讯飞股份有限公司 、中国电力科学研究院有限公司 、中移系统集成有限公司 、中国南方电网有限责任公司超高压输电公司 、上海移芯通信科技股份有限公司 、中移雄安信息通信科技有限公司 、南京南瑞瑞腾科技有限责任公司 、中煤信息技术(北京) 有限公司 、奕行智能科技(广州)有限公司 、中国电信股份有限公司重庆分公司 、北京浩瀚深度信息技术股份有限公司 。

  本文件主要起草人 :董建 、张行程 、杨雨泽 、徐洋 、裴芝林 、杨恒 、胡晓光 、杨超 、钟普 、李笑如 、马珊珊 、卢顺 、门春雷 、丁瑞 全 、吴 庚 、赵 春 昊 、王 思 善 、吴 宇 震 、郭 乙 运 、于 超 、张 云 飞 、郭 振 华 、王 斌 、梅 敬 青 、高万琪 、聂简荻 、沈 芷 月 、邢 冯 、唐 轶 男 、孙 跃 、牛 红 星 、白 童 心 、欧 阳 剑 、高 慧 、孔 维 生 、胡 铭 珊 、王 鹏 、黄丹丹 、董守杨 、李爱军 、黄程 、张艺伯 、孙孝思 、勾海鹏 、仲凯韬 、王召 、陈曦 、乔玉平 、严敏辉 、张天 、文星 、梁恒康 、杨佳丽 、王立晨 、杨勇勇 、张博 、马建华 、潘武 、韩复君 、章放 、蒙贵云 、黄岩哲 、袁杰 、朱静 、陈军 、芮子文 、杨云飞 、杨彤晖 、张晓娟 、王静 、王宁 、田康 、石超 、刘贇 、王晨子 、赖苏 、赵佳杰 。

  Ⅲ

  GB/T 46345—2025

  人工智能 深度学习编译器接口

  1 范围

  本文件规定了深度学习编译器的图生成模块接口 、图转换模块接口 、图调度模块接口 、领域特定语言接口 、算子生成器接口功能与输入 、输出参数的要求 ,描述了相应的测试方法 。

  本文件适用于深度学习编译器的设计与实现 ,也为深度学习编译器的集成和应用提供参考 。

  2 规范性引用文件

  下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款 。其中 , 注 日期的引用文件 ,仅该日期对应的版本适用于本文件 ;不注日期的引用文件 ,其最新版本(包括所有的修改单) 适用于本文件 。

  GB/T 41867—2022 信息技术 人工智能 术语

  3 术语和定义

  GB/T 41867—2022界定的以及下列术语和定义适用于本文件 。

  3. 1

  深度学习 deep learning

  深度神经网络学习 deep neuralnetwork learning

  通过训练具有许多隐藏层的神经网络来创建丰富层次表示的方法 。

  注 : 深度学习是机器学习的一个子集 。

  [来源 :GB/T 41867—2022, 3. 2. 27]

  3.2

  深度学习编译器 deep learning compiler

  面向深度学习模型及特定领域语言源代码进行优化和编译的工具 。

  注 : 深度学习编译器将深度学习模型或领域特定语言源 代 码 转 化 为 人 工 智 能 加 速 芯 片 的 可 执 行 代 码 , 实 现 高 效 地训练和推理 。

  3.3

  人工智能加速处理器 artificialintelligenceacceleratingprocessor

  人工智能加速芯片 artificialintelligenceaccelerating chip

  具备适配人工智能算法的运算微架构 ,能够完成人工智能应用运算处理的集成电路元件 。

  [来源 :GB/T 41867—2022, 3. 1. 5] 3.4

  中间表示 intermediaterepresentation

  深度学习编译器在将源代码转换为可执行代码的过程中使用的一种编码形式 。

  注 : 中间表示在转换过程中用于表示程序的结构和语义信息 , 以便进行进一步的优化和代码生成 。

  1

  GB/T 46345—2025

  3.5

  计算图 computationalgraph

  用来表示数学函数 , 由节点和连接构成的有向图 。

  注 1: 节点表示数学运算 , 即算子 。

  注 2: 连接表示数学运算之间的依赖关系 。

  注 3: 一个连接的作用是连通起始节点和终止节点 。

  注 4: 在本文件中 ,在不引起误解的语境中 ,将计算图简称为图 。

  [来源 :ISO/IEC/IEEE 24765:2017,3. 1762. 1,有修改] 3.6

  子图 sub-computationalgraph

  计算图中的一个部分图 。

  注 1: 子图是从整体计算图中划分出来的 ,可代表某个特定的模块 、层或操作序列 。

  注 2: 子图包含一组节点和边 ,形成一个相对独立的子结构 。

  3.7

  算子 operator

  表示行动的数学或逻辑符号 ,或函数的名称 。

  [来源 :ISO/IEC TR 17903:2024,3. 15,有修改] 3. 8

  领域特定语言 domain specific language

  深度学习编译器中面向深度学习计算任务设计的编程语言或中间表示 。

  4 缩略语

  下列缩略语适用于本文件 。

  AI:人工智能(ArtificialIntelligence)

  API:应用编程接口(Application Programming Interface)

  DSL:领域特定语言(Domain Specific Language)

  GPU : 图形处理单元(Graphic Processing Unit)

  ID:标识符(Identification)

  5 概述

  5. 1 技术架构

  深度学习编译器通过对 模 型 或 领 域 特 定 语 言 源 代 码 进 行 图 生 成 、图 转 换 、图 调 度 、算 子 生 成 等 操作 ,生成 AI加速芯片可 执 行 代 码 。 深 度 学 习 编 译 器 能 接 受 来 自 深 度 学 习 框 架 API或 模 型 文 件 的 输入 ,也能接受领域特定语言源代码作为输入 。对于来自深度学习框架 API或模型文件的输入 , 编译器通过图生成 、图转换 、图调度 、算子生成等操作 ,获得能在 AI加速芯片执行的文件 ;对于领域特定语言源代码 ,编译器调用算子生成器获得能在 AI加速芯片执行的文件 。 图 1 描述了深度学习编译器的技术架构 ,其中各技术模块的功能详见下列内容 。

  2

  3

  GB/T

  

  46345—2025

  注 : 图中实线部分对应本文件规定的范畴 ,虚线部分仅表 明 本 文 件 规 定 接 口 所 处 的 位 置 及 与 其 他 部 件 或 组 件 的 关系 ,不属于本文件规定的范围 。

  图 1 深度学习编译器技术架构

  a) 图生成模块 :对深度学习模型文件进行加载 、编辑并生成计算图中间表示 ,包括计算图加载和计算图编辑两个子模块 。

  b) 图转换模块 :通过对输入的计算图进行优化 、拆分 、递降等过程 ,将其换为多个子图 , 同时将计算图中的算子下降为更细粒度的算子表达 。

  c) 图调度模块 :根据计算任务的内存占用 ,对计算资源进行动态管理 ; 同时根据计算任务间依赖关系 ,选择合适调度策略将任务并行执行 。 图调度模块包括资源管理和子图调度两个子模块 。图调度能在深度学习编译器中实现 ,也能在深度学习框架中实现 。若该模块在深度学习框架中实现 ,则由框架触发执行 。

  d) 领域特定语言源代码 :使用 DSL编写算子文件能简化和优化深度神经网络计算内核的定义与编写过程 ,提高开发效率和模型性能 。深度学习编译器能支持 DSL相关接口的解析和处理 。

  e) 算子生成器 :算子生成器根据领域特定语言源代码或图转换的输出文件 ,生成 AI加速芯片能执行的算子代码 。

  5.2 技术流程

  图 2 描述了深度学习编译器技术流程 ,分为计算图编译和计算图执行两个过程 。

  GB/T 46345—2025

  注 1: 图中的编译包含离线编译和在线编译两种形式 ,离线编译是一种预先在开发环境中完成的编译过 程 ; 在 线 编译是在运行时进行编译的过程 。根据编译器实现不同 ,选择支持不同的形式 。

  注 2: 图中实线部分对应本文件规定的范畴 ,虚线部分仅表明本文件规定接口所处的位置及与其他部件或组件的关系 ,不属于本文件规定的范围 。

  图 2 深度学习编译器技术流程图

  计算图编译过程 :根据不同输入类型 ,执行不同模块进行编译 。具体编译过程包括下列步骤 。

  a) 若输入为深度学习框架 API或模型文件 : 编译器通过图生成将其编译为计算图子图 ,再通过图优化 、图拆分模块将其编译为优化后计算图子图 ,并通过图递降表达为相关算子 。

  b) 若输入为领域特定语言源代码 : 编译器通过算子生成器将其离线编译为符合 AI加速芯片的可执行文件 。

  计算图执行过程 : 图调度模块进行算子生成器与可执行文件的选择性加载与调用 。具体执行过程包括下列步骤 。

  a) 算子生成器的调用 :若子图的前置依赖已完成 ,则进行算子生成器的调用 ;否则不进行算子生成器的调用 。

  b) 可执行文件的加载和调用 :若 AI加速芯片算子库 、使能软件与可执行文件表达同一种计算语义 ,则编译器进行可执行文件的加载和调用 。

  5.3 接口测试

  基于本文件实现的深度学习编译器统一接 口 ,其实现效果按照附录 A 的测试方法判定 。

  6 图生成模块接口

  6. 1 概述

  图生成模块包括计算图加载和计算图编辑两个子模块 。计算图加载是深度学习编译器加载深度学

  4

  GB/T 46345—2025

  习模型计算图的过程 。计算图编辑是对计算图进行节点编辑 、属性编辑 、模式替换等操作的过程 。

  6.2 计算图加载

  6.2. 1 计算图加载接口

  计算图加载接口的 输 入 为 深 度 学 习 框 架 中 的 模 型 , 包 含 了 加 载 的 计 算 图 信 息 , 输 出 为 计 算 图 对象 ,包含节点和连接信息 ,接口定义见表 1,计算图节点属性定义见 6. 2. 2。

  表 1 计算图加载接口定义

  接口名称

  接口英文名称

  功能语义描述

  参数

  输入/输出

  必选/可选

  计算图加载接 口

  load_graph

  加载深度学习模型的计算图

  深度学习模型文件

  输入

  必选

  计算图对象

  输出

  必选

  6.2.2 计算图节点属性

  计算图由相互关联的节点构成 ,计算图节点表示计算操作的数据结构 ,例如卷积 、池化 、全连接等 。计算图节点应包括操作 、名称属性 ,宜包括调用对象 、调用参数 、关键字参数属性 ,功能语义说明如下 :

  a) 操作属性指节点种类的标识 ,表示具体的操作 ;

  b) 名称属性指节点的名字 ,与调用的对象相关 ;

  c) 调用对象属性指每个节点调用的对象 ,可以是算子 、函数 ,方法 ,属性或模块 ;

  d) 调用参数属性指节点的调用参数 ;

  e) 关键字参数属性指节点的关键字参数 。

  6.2.3 操作属性类型

  计算图节点中的操作属性描述了节点执行的具体计算逻辑或功能 。计算图节点应支持占位符 、获取参数 、调用函数 、输出操作属性类型 ,宜支持调用模块 、调用方法 、节点块 、判断 、循环操作属性类型 ,功能语义说明如下 :

  a) 占位符操作属性类型 :代表输入参数 ,这里计算图节点名称 、调用对象属性表示输入参数的名称 ,调用参数包含两种情况 :为空或函数输入的默认值 ,每个参数对应一个默认值 ,关键字参数忽略不计 ;

  b) 获取参数操作属性类型 :从模块层次结构中检索参数 ,计算图节点名称是分配给获得结果的名称 ,调用参数是参数在模块层次结构中的完全限定名称 ,调用参数和关键字参数忽略不计 ;

  c) 调用函数操作属性类型 :用给定参数进行函数调用 ,计算图节点名称是返回结果的名称 ,调用对象是要执行的函数 ,调用参数和关键字参数表示函数的参数 ;

  d) 输出操作属性类型 :表示计算图的输出 ,计算图节点名称和调用对象均为输出 ,调用参数为具体返回值 ;

  e) 调用模块属性类型 :用给定参数调用模块层次结构中的前向运行方法 ,计算图节点名称是返回结果的名称 ,调用对象是模块层次结构中要调用的模块的完全限定名称 ,调用参数和关键字参数表示调用模块的参数 ,不包括对象本身参数 ;

  f) 调用方法属性类型 :调用一个值的方法 ,计算图节点名称是返回结果的名称 ,调用对象是应用于对象本身参数的方法的字符串名称 ,调用参数和关键字参数表示调用方法的参数 ,包括对象本身参数 ;

  g) 节点块属性类型 :在流程流中表示一系列子节点的开始 ,子节点的结束为输出 ,计算图节点名

  5

  GB/T 46345—2025

  称为该节点块的名称 ,调用参数和关键字参数忽略 ;

  h) 判断属性类型 :在控制流中表示条件判断 ,根据判断结果 ,该节点后跟随一个条件判断为真的节点块和一个条件判断为假的节点块 ,名称和调用对象均为 if,调用参数[0]为判断条件 ,调用参数[1]和调用参数[2]分别为条件为真和假两个节点块名称 ,关键字参数忽略 ;

  i) 循环操作属性类型 :在控制流中表示循环语句 ,循环体为该节点后跟随的节点块 ,名称和调用对象均为 loop,调用参数[0]为最大循环次数 ,调用参数[1]为初始循环条件 ,在循环体的返回节点输出中调用参数[0]为循环迭代条件 。

  6.3 计算图编辑

  作为内部功能性调用接 口 ,深度学习编译器宜提供计算图编辑接 口 ,包括节点编辑接口 、属性编辑接口 、遍历和访问接口 、模式替换接口 、图序列化及反序列化接口 、可视化接 口 。计算图编辑接口使得编译器可对计算图进行简化 ,其接口定义应符合附录 B。

  7 图转换模块接口

  7. 1 概述

  深度学习编译器的图转换包括图优化 、图拆分 、图递降三个过程 :

  a) 图优化指在同一层次的中间表达中对图进行特定的优化 , 图优化过程是一种等效的转换 ,不能改变图的任何语义 ;

  b) 图拆分指根据计算资源 ,将计算图拆分成多个子图 , 以便在多个 AI加速芯片上并行执行 ;

  c) 图递降是指将从深度学习框架中获取的计算图逐级转换到芯片编译器所支持子图中间表示的过程 ; 图递降过程是一种等效的转换 ,不能改变计算图的任何语义 ;经过图递降之后 ,计算图能在不同的 AI芯片和软件平台上进行优化和执行 ; 图递降是一种完全的逐级转换 ,也是一种部分逐级转换 。

  7.2 图优化

  图优化包括优化算法的注册和计算图优化执行两过程 。 图优化过程通过对原计算图进行算子融合 、内存优化等操作 ,得到优化后的计算图 ,从而减少冗余计算 ,其接口定义见表 2。

  表 2 图优化接口定义列表

  接口名称

  接口英文名称

  功能语义描述

  参数

  输入/输出

  必选/可选

  注册优化算法

  register_pass

  将图优化算法注册到 优 化 算 法 执 行器中

  图优化算法名称

  输入

  必选

  原优化算法管理器

  输入

  可选

  注册算法后的优化算法管理器

  输出

  可选

  计算图优化执行

  optimize_graph

  对计算图进行优化

  原计算图

  输入

  必选

  优化后的计算图

  输出

  必选

  优化算法管理器

  输入

  可选

  7.3 图拆分

  图拆分是将计算图拆分成多个子图 , 以便在多个 AI加速芯片上并行执行的过程 ,具体步骤如下 :

  6

  GB/T 46345—2025

  a) 节点依赖分析 :对整个计算图进行依赖分析 ,确定各个节点之间的依赖关系 ,根据依赖关系确定哪些节点可并行执行 , 以及如何将计算图划分为多个子图 ;

  b) 图拆分 :根据 AI芯片的特性和性能需求 ,选择合适的拆分策略 ,对计算图进行拆分 ,并确定每个子图的运行设备 。

  图拆分包括依赖分析 、图拆分 2个接 口 ,其接口定义见表 3。

  表 3 图拆分接口定义列表

  接口名称

  接口英文名称

  功能语义描述

  参数

  输入/输出

  必选/可选

  依赖分析

  dependency_analysis

  对算子间依赖关系进行分析

  计算图

  输入

  必选

  依赖关系

  输出

  必选

  图拆分

  graph_split

  将 计 算 图 进 行 拆 分子图

  原计算图

  输入

  必选

  拆分后的计算图子图

  输出

  必选

  拆分策略

  输入

  可选

  7.4 图递降

  图递降是将高层子图中间表示(即原子图中间表示)转换为低层子图中间表示(即 目标子图中间表示)的过程 。子图中间表示中包含一个或多个有依赖关系的算子 ,具体步骤如下 :

  a) 定义递降前的原子图中间表示 ;

  b) 定义递降后的目标子图中间表示 ;

  c) 注册上述递降的配对模式 ;

  d) 重复 a) ~ c) ,注册所有需要图递降的模式 ;

  e) 遍历计算图 ,进行图递降操作 。

  图递降接口定义见表 4。

  表 4 图递降接口定义

  接口名称

  接口英文名称

  功能语义描述

  参数

  输入/输出

  必选/可选

  模式注册

  register

  注 册 原 子 图 到 目 标子图中间表示的模式匹配

  目标子图中间表示

  输入

  必选

  注册后的转换规则管理器

  输出

  必选

  原子图中间表示

  输入

  可选

  原转换规则管理器

  输入

  可选

  递降执行

  conversion或lowering

  依据模 式 , 进 行 原 子图 到 目 标 子 图 中 间表示的转换

  原计算图

  输入

  必选

  模式遍历算法名称

  输入

  必选

  转换规则管理器

  输入

  必选

  转换后计算图

  输出

  必选

  7

  GB/T 46345—2025

  8 图调度模块接口

  8. 1 概述

  图调度由资源管理 、子图调度两个操作组成 。 图调度功能也能由深度学习框架实现 ,编译器提供互操作能力 。

  8.2 资源管理

  资源管理包括设备内存的分配与释放 ,流的创建与销毁等 。设备内存用于计算图输入输出以及中间结果的储存 。 图调度前需要准备好所需存储空间 ,任务执行完毕后需释放所占用的存储空间 。 流资源被用于图调度过程中 ,在整个调度过程中进行创建与释放 。资源管理接口定义见表 5。

  表 5 资源管理接口定义

  接口名称

  接口英文名称

  功能语义描述

  参数

  输入/输出

  必选/可选

  同步设备内存分配

  alloc_mem

  在 AI加 速 芯 片 设 备上分配内存

  分配内存的指针

  输入

  必选

  需要分配内存的大小

  输入

  必选

  分配是否成功

  输出

  必选

  同步设备内存释放

  free_mem

  释放通过 alloc_ mem分配的内存

  需要释放内存的指针

  输入

  必选

  释放是否成功

  输出

  必选

  异步设备内存分配

  async_alloc_mem

  在 AI加 速 芯 片 设 备上异步分配内存

  分配内存的指针

  输入

  必选

  需要分配内存的大小

  输入

  必选

  分配是否成功

  输出

  必选

  流

  输入

  可选

  异步设备内存释放

  async_free_mem

  异步释放通过 async_ alloc_ mem 分 配 的内存

  需要释放内存的指针

  输入

  必选

  释放是否成功

  输出

  必选

  流

  输入

  可选

  流创建

  stream_create

  创建流

  创建流的指针

  输入

  必选

  创建是否成功

  输出

  必选

  流的优先级

  输入

  可选

  流销毁

  stream_destroy

  销毁指定的流

  需要销毁的流

  输入

  必选

  销毁是否成功

  输出

  必选

  流同步

  synchronize_stream

  同步指定的流

  流

  输入

  必选

  同步数据接口拷贝

  memory_copy

  同步数据复制接 口

  主机上的内存地址

  输入

  必选

  设备上的内存地址

  输入

  必选

  内存复制的方向(主 机到设备 、设备到 主 机 或设备到设备)

  输入

  必选

  复制是否成功

  输出

  必选

  8

  GB/T 46345—2025

  表 5 资源管理接口定义 (续)

  接口名称

  接口英文名称

  功能语义描述

  参数

  输入/输出

  必选/可选

  异步数据接口拷贝

  async_memory_

  copy

  异步数据复制接 口

  主机上的内存地址

  输入

  必选

  设备上的内存地址

  输入

  必选

  内存复制的方向(主 机到设备 、设备到 主 机 或设备到设备)

  输入

  必选

  复制是否成功

  输出

  必选

  流

  输入

  可选

  同步内存设备初始化

  memory_set

  在 AI加 速 芯 片 设 备上同步初始化内存

  分配内存的指针

  输入

  必选

  分配内存的大小

  输入

  必选

  需要初始化的值

  输入

  必选

  异步内存设备初始化

  async_memory_

  set

  在 AI加 速 芯 片 设 备上异步初始化内存

  分配内存的指针

  输入

  必选

  分配内存的大小

  输入

  必选

  需要初始化的值

  输入

  必选

  8.3 子图调度

  子图调度包括设备流管理器 、计算图队列 、计算图到设备流的映射数据结构等成员变量 :

  a) 设备流管理器 :缓存图调度所需流资源 ,并管理流之间的同步和依赖 ,包含设备流创建 ,设备流销毁等方法 ,该成员变量应必选支持 ,英文名称为 device stream manager;

  b) 计算图队列 :存储和管理已经调度计算图的数据结构 ,可在队列尾部添加新的计算图 ,该成员变量应必选支持 ,英文名称为 graph_list;

  c) 计算图到设备流的映射 : 映射中键为计算图对象 ,值为该计算图调度执行的设备流 , 多个计算图可映射到同一个设备流 。该成员变量应必选支持 ,英文名称为 graph_stream_mapping。

  子图调度接口定义见表 6,参数包括新的计算图 、调度优化算法 、设备流到计算图队列的映射 。

  表 6 子图调度接口定义

  接口名称

  接口英文名称

  功能语义描述

  参数

  输入/输出

  必选/可选

  子图调度

  graph_schedule

  根据输入 的 新 计 算 图 , 结 合 缓存的计算 图 队 列 , 进 行 调 度 优化 ,将新计 算 图 绑 定 到 其 执 行所需的设 备 流 , 并 在 计 算 图 队列和 计 算 图 到 设 备 流 的 映 射记录相关信息

  新的计算图

  输入

  必选

  调度优化算法名称

  输入

  必选

  设 备 流 到 计 算 图 队列的映射

  输出

  必选

  9 领域特定语言接口

  领域特定语言支持对程序 ID、加载张量 、存储张量 、构建块指针 、指针前移 、创建张量 、创建全零张

  9

  GB/T 46345—2025

  量 、创建连续值张量 、点积 、转置 、改变形状等基础操作接口的解析和处理 ,接口定义应符合附录 C。

  10 算子生成器接口

  算子生成器根据 DSL算子源代码文件或图转换模块的输出结果 ,生成可在 AI加速芯片执行的算子执行文件 ,其接口定义见表 7。

  表 7 算子生成器接口定义

  接口名称

  接口英文名称

  功能语义描述

  参数

  输入/输出

  必选/可选

  算子生成器

  code_gen

  生成可 在 AI加 速 芯片上执行的算子文件或内存上可执行的对象

  DSL算 子 源 代 码 文 件 或 计算图子图中间表示

  输入

  必选

  目标加速芯片信息

  输入

  必选

  加速芯片可执行算子

  输出

  必选

  10

  GB/T 46345—2025

  附 录 A (规范性)

  接口测试方法

  A. 1 图生成模块接口符合性测试

  图生成模块接口包括计算图加载和计算图编辑 ,计算图加载接口符合性测试方法应符合表 A. 1,计算图编辑接口符合性测试方法应符合表 A. 2。

  表 A. 1 计算图加载接口符合性测试

  测试项 目

  计算图加载接口符合性测试

  测试依据

  6. 2. 1计算图加载接 口 、6. 2. 2计算图节点数据结构和 6. 2. 3操作属性类型定义

  测试步骤

  a) 配置深度学习编译器 ,及其所依赖的运行环境 ;

  b) 检查计算图加载接口参数实现与 6. 2. 1 规定是否一致 ;

  c) 准备深度学习模型文件作为接口输入 ;

  d) 使用编译器加载深度学习模型文件

  预期结果

  a) 计算图加载接口参数实现与 6. 2. 1 规定一致 ;

  b) 加载接口应能够正确加载并解析深度学习模型文件 ;

  c) 计算图节点与操作属性被正确加载 ,满足 6. 2. 2 和 6. 2. 3定义

  表 A.2 计算图编辑接口符合性测试

  测试项 目

  计算图优化接口符合性测试

  测试依据

  6. 3计算图编辑接口定义

  测试步骤

  a) 配置深度学习编译器 ,及其所依赖的运行环境 ;

  b) 准备待测试计算图数据作为输入 ;

  c) 检查节点编辑接口 、属性编辑接口 、遍历和访问接口 、模式替换接口 、图序列化及反序列化接口参数实现与 6. 3 规定是否一致 ;

  d) 使用节点编辑 、属性编辑 、遍 历 和 访 问 、模 式 替 换 、图 序 列 化 及 反 序 列 化 对 计 算 图 进 行 编辑 ;若支持可视化 ,则使用可视化接口查看计算图结构

  预期结果

  a) 计算图编辑接口实现与本文件定义一致 ;

  b) 节点编辑 、属性编辑 、遍历和访问 、模式替换 、图序列化及反序列化操作正确 执 行 ,输 出 结果与 6. 3 规定接口输出一致 ;

  c) 若支持可视化 ,则可视化接口可准确反映计算图结构

  A.2 图转换模块接口符合性测试

  图转换模块接口包括图优化接口 、图拆分接口 、图递降接 口 ,其符合性测试方法应分别符合表 A. 3、表 A. 4 与表 A. 5。

  11

  GB/T 46345—2025

  表 A.3 图优化接口符合性测试

  测试项 目

  计算图优化接口符合性测试

  测试依据

  7. 2计算图优化接口定义

  测试项 目

  计算图优化接口符合性测试

  测试步骤

  a) 配置深度学习编译器 ,及其所依赖的运行环境 ;

  b) 准备待优化的计算图作为输入 ,包括需要优化的复杂计算图结构 。

  c) 检查计算图优化接口实现与 7. 2 规定是否一致 ;

  d) 执行优化接 口 ,对计算图进行优化操作

  预期结果

  a) 计算图优化接口实现与 7. 2 规定一致 ;

  b) 图优化接口正确实现了所预定的优化策略 ;

  c) 优化后的计算图保持原有逻辑和功能

  表 A.4 图拆分接口符合性测试

  测试项 目

  计算图拆分接口符合性测试

  测试依据

  7. 3计算图拆分接口定义

  测试步骤

  a) 配置深度学习编译器 ,及其所依赖的运行环境 ;

  b) 准备待拆分的计算图作为输入 ;

  c) 检查计算图拆分接口实现与 7. 3 规定是否一致 ;

  d) 执行拆分接 口 ,对计算图进行依赖分析与拆分操作

  预期结果

  a) 计算图拆分接口实现与 7. 3 规定一致 ;

  b) 计算图依赖分析结果准确 ,正确识别出可并行执行的节点 ;

  c) 可根据 AI加速芯片特性和性能需求有效拆分计算图 ;

  d) 拆分后子图的输出与原始计算图输出一致

  表 A.5 图递降接口符合性测试

  测试项 目

  计算图递降接口符合性测试

  测试依据

  7. 4计算图递降接口定义

  测试步骤

  a) 配置深度学习编译器 ,及其所依赖的运行环境 ;

  b) 准备计算图作为图递降接口的输入 ;

  c) 检查计算图递降接口实现与 7. 4规定是否一致 ;

  d) 进行模式配对注册 ,执行图递降操作

  预期结果

  a) 图递降接口实现与 7. 4规定一致 ;

  b) 所有递降配对模式均注册成功 ,且模式可被正确匹配 ;

  c) 可按照注册的配对模式正确执行递降 ,生成预期的子图

  12

  GB/T 46345—2025

  A.3 图调度模块接口符合性测试

  图调度模块接口包 括 资 源 管 理 接 口 、子 图 调 度 接 口 , 其 符 合 性 测 试 方 法 应 分 别 符 合 表 A. 6 与 表

  A. 7。在子图调度接口符合性测试过程中 ,应对子图调度类的实现进行检测 。

  表 A.6 资源管理接口符合性测试

  测试项 目

  资源管理接口符合性测试

  测试依据

  8. 2 资源管理接口定义

  测试步骤

  a) 配置深度学习编译器 ,及其所依赖的运行环境 ;

  b) 检查资源管理接口实现与 8. 2 规定是否一致 ;

  c) 进行设备内存的请求与释放 ,并使用工具进行内存监控 ;

  d) 进行流的创建与销毁 ,并使用工具检查流的属性和执行状态

  预期结果

  a) 资源管理接口实现与 8. 2 规定一致 ;

  b) 所请求的设备内存被成功分配 ,没有内存泄漏或错误 ;

  c) 分配的内存在释放后恢复到可用状态 ,系统内存使用量正确减少 ;

  d) 流按预期配置创建 ,没有资源泄漏或错误状态 ;

  e) 流销毁后 ,相关资源应被彻底回收 ,没有资源泄漏

  表 A.7 子图调度接口符合性测试

  测试项 目

  子图调度接口符合性测试

  测试依据

  8. 3 子图调度接口定义

  测试步骤

  a) 配置深度学习编译器 ,及其所依赖的运行环境 ;

  b) 检查子图调度类及接口的实现与 8. 3 规定是否一致 ,成员变量包括设备流管理器 、计算图队列 、计算图到设备流的映射 ;

  c) 准备计算图 、调度优化算法名称作为接口输入 ;

  d) 执行子图调度

  预期结果

  a) 子图调度类和接口实现与 8. 3 规定一致 ;

  b) 实现调度优化 ,将输入计算 图 绑 定 到 其 执 行 所 需 的 设 备 流 ,并 正 确 记 录 计 算 图 队 列 和 计算图到设备流的映射相关信息

  A.4 领域特定语言接口符合性测试

  DSL相关接口符合性测试方法应符合表 A. 8。

  表 A. 8 DSL语言宜支持操作接口符合性测试

  测试项 目

  DSL语言宜支持操作接口符合性测试

  测试依据

  附录 C规定的 DSL语言应支持的操作接 口

  13

  GB/T 46345—2025

  表 A. 8 DSL语言宜支持操作接口符合性测试 (续)

  测试项 目

  DSL语言宜支持操作接口符合性测试

  测试步骤

  a) 配置深度学习编译器 ,及其所依赖的运行环境 ;

  b) 使用 DSL语言实现附录 C规定的基本操作接 口 ;

  c) 面向 DSL 中的每个接口操作编写单独的测试用例 ;

  d) 测试多个 DSL语言编写基础操作接口的组合

  预期结果

  a) 可使用 DSL语言实现附录 C规定的基本操作接 口 ,且输入输出参数与标准定义一致 ;

  b) 执行每个基本操作接口可产生预期的输出 ;

  c) 执行多个基本操作接口的组合 ,可产生预期的输出

  A.5 算子生成器接口符合性测试

  算子生成器接口符合性测试方法应符合表 A. 9。

  表 A.9 算子生成器接口符合性测试

  测试项 目

  算子生成器接口符合性测试

  测试依据

  第 10章定义的算子生成器接 口

  测试步骤

  a) 配置深度学习编译器 ,及其所依赖的运行环境 ;

  b) 检查算子生成器实现与第 10章规定是否一致 ;

  c) 创建 DSL算子文件 , 以及对应的算子生成器输出预期结果 ,作为测试数据 ;

  d) 创建执行图转换后的子图 中 间 表 示 文 件 , 以 及 对 应 的 算 子 生 成 器 输 出 预 期 结 果 ,作 为 测试数据

  预期结果

  a) 算子生成器接口实现与第 10章规定一致 ;

  b) 算子生成器可正确执行 DSL算子文件或子图中间表示文件 ,输出结果与预期结果一致

  A.6 接口性能与稳定性测试

  使用本文件规定的编译器接口实现深度框架与 AI加速芯片适配后的系统推理性能 、压力与稳定性方面应达到下列要求 :

  a) 性能测试 :提供可供性能分析的数据来衡量模型推理性能 ,例如固定配置下的平均推理延时 ;

  b) 稳定性测试 :保证多次推理精度误差在一定范围内 ,推理结果稳定复现 ;不出现严重性下降或内存显存泄漏等异常情况 ,且推理精度下降在允许误差范围内 。

  14

  GB/T 46345—2025

  附 录 B

  (规范性)

  计算图编辑接口

  深度学习编译器计算图编辑接口定义应符合表 B. 1~表 B. 6 的要求 。

  表 B. 1 节点编辑接口定义列表

  接口名称

  接口英文名称

  功能语义描述

  参数

  输入/输出

  必选/可选

  获取节点

  get_node

  获取位于指定序号的节点

  节点序号

  输入

  必选

  节点

  输出

  必选

  新建节点

  create_node

  新建一个节点并在设置的插入位置添加到图中

  操作

  输入

  必选

  调用对象

  输入

  必选

  新建节点

  输出

  必选

  名称

  输入

  可选

  位置参数

  输入

  可选

  关键字参数

  输入

  可选

  设置往前插入位置

  set_insert_before

  设置该节点前为待插入位置

  待插入位置后节点

  输入

  必选

  设置往后插入位置

  set_insert_after

  设置该节点后为待插入位置

  待插入位置前节点

  输入

  必选

  删除节点

  erase_node

  将指定的节点从计算图中删除

  待删除节点

  输入

  必选

  表 B.2 属性编辑接口定义列表

  接口名称

  接口英文名称

  功能语义描述

  参数

  输入/输出

  必选/可选

  获取节点编辑属性

  op

  获取节点的操作属性

  操作

  输出

  必选

  设置节点编辑属性

  set_op

  设置节点的操作属性

  操作

  输入

  必选

  获取节点调用对象

  target

  获取节点调用对象

  调用对象

  输出

  必选

  设置节点调用对象

  set_target

  设置节点调用对象

  调用对象

  输入

  必选

  获取节点名称

  name

  获取节点名称

  名称

  输出

  必选

  设置节点名称

  set_name

  设置节点名称

  名称

  输入

  必选

  往后添加节点

  append

  往后添加节点

  节点

  输入

  必选

  往前添加节点

  prepend

  往前添加节点

  节点

  输入

  必选

  获取节点关键字参数

  arg

  获取节点关键字参数

  关键字参数

  输出

  必选

  15

  GB/T 46345—2025

  表 B.2 属性编辑接口定义列表 (续)

  接口名称

  接口英文名称

  功能语义描述

  参数

  输入/输出

  必选/可选

  设置节点关键字参数

  set_arg

  设置节点关键字参数

  关键字参数

  输入

  必选

  修改调用参数

  kwarg

  修改对应索引的调用参数

  索引

  输入

  必选

  set_kwarg

  调用参数

  输入

  必选

  修改关键字参数

  update_arg

  修改对应索引的关键字参数

  索引

  输入

  必选

  关键字参数

  输入

  必选

  获取节点位置参数

  update_kwarg

  获取节点位置参数

  位置参数

  输出

  可选

  设置节点位置参数

  设置节点位置参数

  位置参数

  输入

  可选

  16

  表

  B.3

  

  遍历和访问接口定义列表

  接口名称

  接口英文名称

  功能语义描述

  参数

  输入/输出

  必选/可选

  获取第一个节点

  first

  获取第一个节点

  无

  —

  —

  获取下一个节点

  next

  获取下一个节点

  无

  —

  —

  判断是否遍历结束

  has_next

  判断是否遍历结束

  遍历是否结束

  输出

  必选

  表 B.4 模式替换接口定义

  接口名称

  接口英文名称

  功能语义描述

  参数

  输入/输出

  必选/可选

  模式替换

  replace_pattern

  图遍历将所有的匹配的子图用指定的子图进行替换

  待匹配模式

  输入

  必选

  替换模式

  输入

  必选

  表 B.5 图序列化及反序列化接口定义列表

  接口名称

  接口英文名称

  功能语义描述

  参数

  输入/输出

  必选/可选

  序列化

  serialization

  将 计 算 图 序 列 化 保存到文件系统

  序列化文件完全限定路径

  输入

  必选

  反序列化

  deserialization

  从文件系统反序列化 计 算 图 到 训 练框架

  序列化文件完全限定路径

  输入

  必选

  GB/T 46345—2025

  表 B.6 可视化接口定义

  接口名称

  接口英文名称

  功能语义描述

  参数

  输入/输出

  必选/可选

  计算图可视化

  visualize

  将 计 算 图 导 出 为 指定的可视化样式

  计算图

  输入

  必选

  可视化样式

  输入

  可选

  显示参数

  输入

  可选

  导出路径

  输入

  可选

  17

  GB/T 46345—2025

  附 录 C

  (规范性)

  DSL基础操作接口

  领域特定语言基础操作接口定义应符合表 C. 1~表 C. 23的要求 。

  表 C. 1 程序 ID 接口定义

  接口名称

  接口英文名称

  功能语义定义

  参数

  输入/输出

  必选/可选

  程序 ID

  programid

  返回 当 前 程 序 实 例 在 给定轴上的 ID,帮助开发者在 3D 启动网格中获取当前程序实 例 的 位 置 , 从 而在 GPU 上实现并行计算

  3D启动网格的轴

  输入

  必选

  ID

  输出

  必选

  表 C.2 加载张量接口定义

  接口名称

  接口英文名称

  功能语义定义

  参数

  输入/输出

  必选/可选

  加载张量

  load

  从指定的内存位置加载数 据 , 并 返 回 一个张量

  指针 :指向被加载数据

  输入

  必选

  张量

  输出

  必选

  掩码 : 如 果 掩 码 为 假 (false) , 则不加载指针 地 址 处 的 数 据 , 而 返回其他数组的值

  输入

  可选

  其他 :如 果 掩 码 为 false, 则 返 回其他数组的值

  输入

  可选

  边 界 检 查 : 整 数 元 组 , 指 示 应 进行边界检查的维度

  输入

  可选

  填充 选 项 : 应 为 0 或 空 , 在 越 界时进行填充

  输入

  可选

  缓存选项 :更改芯片的缓存选项

  输入

  可选

  逐出策略 :更改芯片的逐出策略

  输入

  可选

  易失性选项 : 更 改 芯 片 的 易 失 性选项

  输入

  可选

  18

  GB/T 46345—2025

  表 C.3 存储张量接口定义

  接口名称

  接口英文名称

  功能语义定义

  参数

  输入/输出

  必选/可选

  存储张量

  store

  将数据张量存储到指 针 定 义 的 内 存位置

  指针 :存储张量的内存位置

  输入

  必选

  张量 :要存储的元素张量

  输入

  必选

  掩码 :如 果 掩 码 为 false, 则 不 加载指针地址处的数据

  输入

  可选

  边 界 检 查 : 整 数 元 组 , 指 示 应 进行边界检查的维度

  输入

  可选

  缓存选项 :更改芯片的缓存选项

  输入

  可选

  逐出策略 :更改芯片的逐出策略

  输入

  可选

  表 C.4 构建块指针接口定义

  接口名称

  接口英文名称

  功能语义定义

  参数

  输入/输出

  必选/可选

  构建块指针

  make_block_ptr

  返回父张量中一个块的指针

  基指针 :指向父张量的基指针

  输入

  必选

  形状 :父张量的形状

  输入

  必选

  步幅 :父张量的步幅

  输入

  必选

  偏移 :块的偏移量

  输入

  必选

  块形状 :块的形状

  输入

  必选

  顺序 :原始数据格式的顺序

  输入

  必选

  块指针

  输出

  必选

  表 C.5 指针前移接口定义

  接口名称

  接口英文名称

  功能语义定义

  参数

  输入/输出

  必选/可选

  指针前移

  advance

  块指针按指定偏移量前进

  块指针 :前进的块指针

  输入

  必选

  偏 移 : 要 前 进 的 偏 移 量 , 按 维 度划分的元组

  输入

  必选

  表 C.6 创建张量接口定义

  接口名称

  接口英文名称

  功能语义定义

  参数

  输入/输出

  必选/可选

  创建张量

  full

  返回一个给定形状和 数 据 类 型 的 张量 , 用 指 定 标 量 值填充

  形状

  输入

  必选

  张量

  输出

  必选

  数据类型

  输入

  可选

  值

  输入

  可选

  19

  GB/T 46345—2025

  表 C.7 创建全零张量接口定义

  接口名称

  接口英文名称

  功能语义定义

  参数

  输入/输出

  必选/可选

  创建全零张量

  zeros

  返回一个给定形状和 数 据 类 型 的 张量 ,用标量值 0 填充

  形状

  输入

  必选

  张量

  输出

  必选

  数据类型

  输入

  可选

  表 C. 8 创建连续值张量接口定义

  接口名称

  接口英文名称

  功能语义定义

  参数

  输入/输出

  必选/可选

  创建连续值张量

  arange

  返 回 在 半 开 区 间 内的连续值张量

  区间的起始值

  输入

  必选

  区间的结束值

  输入

  必选

  张量

  输出

  必选

  表 C.9 连接张量接口定义

  接口名称

  接口英文名称

  功能语义定义

  参数

  输入/输出

  必选/可选

  连接张量

  cat

  连接两个张量

  第一个张量

  输入

  必选

  第二个张量

  输入

  必选

  张量

  输出

  必选

  重排标记 , 如 果 为 True, 则 允 许编译器 在 连 接 输 入 时 重 新 排 序元素 ,仅在顺序不重要时使用

  输入

  可选

  表 C. 10 点积接口定义

  接口名称

  接口英文名称

  功能语义定义

  参数

  输入/输出

  必选/可选

  点积

  dot

  返回两个张量的矩阵乘积

  第一个张量

  输入

  必选

  第二个张量

  输入

  必选

  张量

  输出

  必选

  精度

  输入

  可选

  表 C. 11 转置接口定义

  接口名称

  接口英文名称

  功能语义定义

  参数

  输入/输出

  必选/可选

  转置

  trans

  对张量的维度进行排列

  输入张量

  输入

  必选

  维度的期望排序

  输入

  必选

  张量

  输出

  必选

  20

  GB/T 46345—2025

  表 C. 12 改变形状接口定义

  接口名称

  接口英文名称

  功能语义定义

  参数

  输入/输出

  必选/可选

  改变形状

  reshape

  返回一 个 张 量 , 其 元素 数 量 与 输 入 相同 ,但 形 状 由 提 供 的形状指定

  输入张量

  输入

  必选

  新形状

  输入

  必选

  张量

  输出

  必选

  重排标记

  输入

  可选

  表 C. 13 扩展维度接口定义

  接口名称

  接口英文名称

  功能语义定义

  参数

  输入/输出

  必选/可选

  扩展维度

  expand_dims

  通过插入新的维度扩展张量的形状

  输入张量

  输入

  必选

  添加新轴的索引

  输入

  必选

  张量

  输出

  必选

  表 C. 14 拆分接口定义

  接口名称

  接口英文名称

  功能语义定义

  参数

  输入/输出

  必选/可选

  拆分

  split

  沿着最后一个维度将张量分成两部分

  待拆分张量

  输入

  必选

  张量元组

  输出

  必选

  表 C. 15 连接接口定义

  接口名称

  接口英文名称

  功能语义定义

  参数

  输入/输出

  必选/可选

  连接

  join

  在一个新的次要维度 中 连 接 给 定 的张量

  第一个张量

  输入

  必选

  第二个张量

  输入

  必选

  张量

  输出

  必选

  表 C. 16 翻转接口定义

  接口名称

  接口英文名称

  功能语义定义

  参数

  输入/输出

  必选/可选

  翻转

  flip

  沿着指定维度翻转张量

  输入张量

  输入

  必选

  待翻转维度

  输入

  必选

  张量

  输出

  必选

  21

  GB/T 46345—2025

  表 C. 17 筛选接口定义

  接口名称

  接口英文名称

  功能语义定义

  参数

  输入/输出

  必选/可选

  筛选

  where

  根 据 条 件 返 回 来 自两 个 张 量 的 元 素 组成的张量

  条件

  输入

  必选

  在条件为真的索引处选择的值

  输入

  必选

  在条件为假的索引处选择的值

  输入

  必选

  张量

  输出

  必选

  表 C. 18 二维矩阵索引转换接口定义

  接口名称

  接口英文名称

  功能语义定义

  参数

  输入/输出

  必选/可选

  二维矩阵索引转换

  swizzle2d

  将一个按行存储的矩阵转换成在每组指定行数的基础上按列存储的形式

  输入矩阵的行索引

  输入

  必选

  输入矩阵的列索引

  输入

  必选

  输入矩阵的总行数

  输入

  必选

  输入矩阵的总列数

  输入

  必选

  每组行的数 量 , 用 于 重 新 排 列 矩阵索引

  输入

  必选

  新行索引 、新列索引元组

  输出

  必选

  表 C. 19 迭代器接口定义

  接口名称

  接口英文名称

  功能语义定义

  参数

  输入/输出

  必选/可选

  迭代器

  range

  提 供 一 个 无 限 向 上计数的迭代器

  迭代起始值

  输入

  必选

  迭代器

  输出

  必选

  迭代结束值

  输入

  可选

  步长值 ,默认为 1

  输入

  可选

  循环阶段数

  输入

  可选

  22

  表 C.20

  

  融合乘加接口定义

  接口名称

  接口英文名称

  功能语义定义

  参数

  输入/输出

  必选/可选

  融合乘加

  fma

  逐元素计算两个输入乘数张量 , 和一个加数张量的融合乘加操作

  输入乘数张量

  输入

  必选

  输入乘数张量

  输入

  必选

  输入加数张量

  输入

  必选

  张量

  输出

  必选

  GB/T 46345—2025

  表 C.21 张量元素归约接口定义

  接口名称

  接口英文名称

  功能语义定义

  参数

  输入/输出

  必选/可选

  张量元素归约

  reduce

  沿指定轴应用组合函 数 对 输 入 张 量 中的所有元素进行归约操作

  输入张量

  输入

  必选

  归约操作维度

  输入

  必选

  组合函数

  输入

  必选

  张量

  输出

  必选

  维度保留标记

  输入

  可选

  表 C.22 原子加法接口定义

  接口名称

  接口英文名称

  功能语义定义

  参数

  输入/输出

  必选/可选

  原子加法

  atomic_add

  指 定 的 内 存 位 置 执行原子加法操作

  指针 :指向操作内存位置的张量

  输入

  必选

  值 :加到内存位置的值

  输入

  必选

  操作前原值

  输出

  必选

  掩 码 : 布 尔 张 量 , 指 定 哪 些 元 素参与操作

  输入

  可选

  内存语义

  输入

  可选

  线程同步范围

  输入

  可选

  表 C.23 生成 FP32随机数接口定义

  接口名称

  接口英文名称

  功能语义定义

 

29139278529
下载排行 | 下载帮助 | 下载声明 | 信息反馈 | 网站地图  360book | 联系我们谢谢