网站地图 | Tags | 热门标准 | 最新标准 | 订阅
您当前的位置:首页 > GB/T 46346-2025 人工智能 计算中心 计算能力评估 > 下载地址2

GB/T 46346-2025 人工智能 计算中心 计算能力评估

  • 名  称:GB/T 46346-2025 人工智能 计算中心 计算能力评估 - 下载地址2
  • 下载地址:[下载地址2]
  • 提 取 码
  • 浏览次数:3
下载帮助: 发表评论 加入收藏夹 错误报告目录
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表
新闻评论(共有 0 条评论)

资料介绍

  ICS 35.240 CCS L 70

  中 华 人 民 共 和 国 国 家 标 准

  GB/T 46346—2025

  人工智能 计算中心 计算能力评估

  Artificial intelligence—Computing center—Computing capability assessment

  2025⁃10⁃05 发布 2025⁃10⁃05 实施

  国家市场监督管理总局国家标准化管理委员会

  

  发

  

  布

  GB/T 46346—2025

  目 次

  前言 Ⅲ

  1 范围 1

  2 规范性引用文件 1

  3 术语和定义 1

  4 缩略语 2

  5 总则 3

  5.1 评估对象 3

  5.2 评估内容 3

  5.3 评估框架 3

  5.4 分类原则 4

  6 评估指标 5

  6.1 硬件规格指标 5

  6.2 基础设施指标 5

  6.3 业务处理指标 6

  7 评估方法 10

  7.1 总则 10

  7.2 算力规模 11

  7.3 组网规模 11

  7.4 存储规模 11

  7.5 通信性能 11

  7.6 存储性能 12

  7.7 训练性能 13

  7.8 推理性能 14

  7.9 算力可用度 14

  附录 A(资料性) 各类型智算中心的计算能力指标要求示例 16

  附录 B(资料性) 智算中心计算能力评估工具示例 18

  B .1 工具说明 18

  B .2 工具使用流程 18

  附录 C(资料性) 智算中心故障等级分类 19

  Ⅰ

  GB/T 46346—2025

  前 言

  本文件按照 GB/T 1.1—2020《标准化工作导则 第 1 部分:标准化文件的结构和起草规则》的规定起草 。

  请注意本文件的某些内容可能涉及专利 。本文件的发布机构不承担识别专利的责任 。

  本文件由全国信息技术标准化技术委员会(SAC/TC 28)提出并归口 。

  本文件起草单位:中国电子技术标准化研究院、华为技术有限公司、浪潮电子信息产业股份有限公司、中国电信集团有限公司、中国移动通信有限公司研究院、阿里云计算有限公司、北京智源人工智能研究院、北京航空航天大学 、中兴通讯股份有限公司 、上海燧原科技股份有限公司 、上海壁仞科技股份有限公司 、上海天数智芯半导体股份有限公司 、超聚变数字技术有限公司 、海光信息技术股份有限公司 、上海商汤智能科技有限公司 、百度网讯科技有限公司 、鹏城国家实验室 、华北电力科学研究院有限责任公司 、中移(苏州)软件技术有限公司 、国电南瑞科技股份有限公司 、国能信息技术有限公司 、北京大学 、中国铁建股份有限公司、中铁第五勘察设计院集团有限公司、天翼云科技有限公司、深圳鲲云信息科技有限公司、平头哥(上海)半导体技术有限公司 、上海人工智能创新中心 、新华三信息技术有限公司 、蚂蚁科技集团股份有限公司 、南方电网科学研究院有限责任公司 、科大讯飞股份有限公司 、杭州海康威视数字技术股份有限公司 、中移系统集成有限公司 、河南昆仑技术有限公司 、摩尔线程智能科技(北京)股份有限公司 、昆仑芯(北京)科技有限公司 、浙江大华技术股份有限公司 、北京大学长沙计算与数字经济研究院 、青岛港国际股份有限公司 、广州赛西标准检测研究院有限公司 、桂林电子科技大学 、新大陆数字技术股份有限公司 、超越科技股份有限公司 、浪潮通信信息系统有限公司 、马上消费金融股份有限公司 、南京南瑞瑞腾科技有限责任公司 、中国南方电网有限责任公司超高压输电公司 、上海文鳐信息科技有限公司 、北京思谋智能科技有限公司、同方知网数字出版技术股份有限公司、中国电信股份有限公司广东研究院、中国科学院新疆理化技术研究所 、中移雄安信息通信科技有限公司 、浙江大学计算机创新技术研究院 、上海人工智能研究院有限公司 、上海市人工智能行业协会 、深圳市优必选科技股份有限公司 、北京安声科技有限公司 。

  本文件主要起草人:范科峰 、徐洋 、张良 、刘文枫 、杨雨泽 、郗睿 、梁志宏 、刘威辰 、秦日臻 、于小博 、卢顺 、吴文莉 、刘祥龙 、李建鹏 、杨恒 、刘羽 、刘振 、沈芷月 、陈乐然 、石浤澔 、马珊珊 、黄程 、朱静 、梅敬青 、王思善、丁瑞全、邢冯、胡铭珊、余雪松、周新中、张鹏、段爱民、吴宗友、吴庚、项铁尧、田晓利、肖松、张叶红、余跃 、李敏 、张志宏 、李旭东 、张万才 、经迪春 、张天霖 、杨超 、李栋 、郑中 、杨明 、苗子聪 、栾丽红 、高慧 、张艺伯 、张行程 、李笑如 、徐深超 、刘如冰 、王恒 、郭智慧 、乔玉平 、张磊 、叶挺群 、周智强 、张天 、杨佳丽 、刘劲楠 、梁永贵 、申骞 、顾沧海 、邓志吉 、孔维生 、勾海鹏 、郭乙运 、吴宇震 、黄胜华 、何倩 、孔昊 、蔡春水 、林靖 、吴登勇 、肖红梅 、梁秉豪 、冯月 、牧军 、石超 、施雨 、王宁 、李学武 、仲凯韬 、芮子文 、苏驰 、于凯 、李达 、马兴 、师春雨 、傅德基 、杨雅婷 、周喜 、郑庆国 、王静 、夏瑞晨 、陈曦 、许春山 、赵春昊 、饶雪 、梁乔玲 、庞建新 、刘益帆 。

  Ⅲ

  GB/T 46346—2025

  人工智能 计算中心 计算能力评估

  1 范围

  本文件规定了人工智能计算中心计算能力的评估指标,描述了相应的评估方法 。

  本文件适用于人工智能计算中心计算能力的评估 ,也为人工智能计算中心规划 、设计 、建设 、服务和运维提供参考依据 。

  2 规范性引用文件

  下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款 。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件 。

  GB/T 41867—2022

  信息技术

  人工智能 术语

  GB/T 42018—2022

  信息技术

  人工智能 平台计算资源规范

  GB/T 45087—2024

  人工智能

  服务器系统性能测试方法

  3 术语和定义

  GB/T 41867—2022 和 GB/T 42018—2022 界定的以及下列术语和定义适用于本文件 。 3.1

  人工智能计算中心 artificial intelligence computing center

  能为多用户提供人工智能计算服务的结构或结构组 。

  注 1:简称为“智算中心”,智算中心包括计算 、存储 、网络等具有人工智能计算特性的硬件设备,以及设备驱动 、计算加速库 、管理组件等支撑人工智能计算能力的必要软件组件 。

  注 2:智算中心一般提供人工智能模型训练计算 、推理计算 、模型微调,以及相关数据存储 、处理 、传输等服务 。 3.2

  人工智能计算能力 artificial intelligence computing capability

  执行人工智能计算任务或支持智能化应用的能力 。

  3.3

  性能 performance

  在运行计算任务时,可被测量的特性 。

  注 1:性能包含定性特征和定量特征 。

  注 2:性能基于一个或多个参数(如运行时间 、能耗 、吞吐率 、实际吞吐率 、每秒浮点运算次数 、故障恢复时长等)的测量或计算获得,以表征在某设备(组)中运行的某技术过程的能力和效率 。

  3.4

  计算节点 computing node

  提供计算能力的设备或设备组 。

  注:在智算中心中 ,计算节点一般包括人工智能加速处理器 、人工智能加速卡或人工智能服务器等计算设备 ,以及智算中心中其他任何用于处理计算任务的存储和网络设备 。

  1

  GB/T 46346—2025

  3.5

  计算任务 computing task

  完成特定计算目标所需的活动 。

  3.6

  词元 token

  语素

  用于表示文本数据的最小单位 。

  注:如字符 、单词或词组 。

  4 缩略语

  下列缩略语适用于本文件:

  AI:人工智能(Artificial Intelligence)

  BF16:布瑞恩半精度浮点数(Brain Floating⁃point)

  Cat:类别(Category)

  CKPT:模型校验点(Checkpoint)

  CPU:中央处理器(Central Processing Unit)

  DP:数据并行(Data Parellelism)

  EP:专家并行(Expert Parellelism)

  EFLOPS:每秒百亿亿次浮点运算次数(Exa Floating Point Operations Per Second)

  FLOPS:每秒浮点运算次数(Floating Point Operations Per Second)

  FP16:半精度浮点数(Half⁃precision Floating⁃point format)

  FP32:单精度浮点数(Single⁃precision Floating⁃point format)

  GPU:图形处理器(Graphics Processing Unit)

  IB:无限带宽网络(InfiniBand)

  INT8:8 位整型数(8⁃bit Integer)

  I/O:输入输出(Input/Output)

  IOPS:每秒输入输出量(Input/Output Per Second)

  MFU:模型算力利用率(Model Flops Utilization)

  MoE:混合专家(Mixture of Experts)

  MTBF:平均无故障工作时长(Mean Time Between Failures)

  MTTR:平均故障恢复时长(Mean Time To Repair)

  NPU:神经网络处理器(Neural Processing Unit)

  OPS:每秒执行的操作次数(Operations Per Second)

  OS:操作系统(Operating System)

  PFLOPS:每秒千万亿次浮点运算次数(Peta Floating Point Operations Per Second)

  QPS:每秒请求数量(Query Per Second)

  RAID:独立硬盘冗余阵列(Redundant Array of Independent Disks)

  ROCE:融合以太网的远程内存直接访问(Remote⁃direct⁃memory⁃access over Converged Ethernet)

  TP:张量并行(Tensor Parellelism)

  2

  GB/T 46346—2025

  5 总则

  5.1 评估对象

  智算中心满足高性能 、高稳定 、高可靠 、高可用等人工智能计算需求,为多个用户提供数据读写 、模型训练 、弹性推理等人工智能计算服务 。用户使用人工智能计算资源时 ,一般通过网络将计算任务分配到智算中心的特定部分(单个计算节点或一组计算节点),在一定的计算能力配额之内 ,执行计算任务 。智算中心技术架构(见图 1)由其中包含的 AI 加速器 、网络互联部件 、数据存储设备及相关配套软件(如加速器驱动 、加速器使能库 、深度学习框架等)共同决定 。

  图 1 智算中心技术架构示意图

  5.2 评估内容

  智算中心计算能力评估涉及多方面的考量 ,除了硬件设备本身能提供的物理人工智能计算能力(简称为“智能算力”)规模外 ,还包括通过任务调度 、策略优化等技术有效整合计算 、存储 、网络设备的物理资源,以及为了支持人工智能业务,将计算资源转化为执行人工智能任务的计算能力 。

  智算中心计算能力的评估框架和分类原则见 5.3 和 5.4,各维度的评估指标见第 6 章 ,对应的评估方法见第 7 章 。

  5.3 评估框架

  智算中心计算能力评估框架见图 2,主要包括三个层级 ,其中每个层级下划分了评估域 ,每一个评估域下包含一个或一组评估指标 。其中,硬件规格能力(L0 层),指智算中心的硬件规格,包含计算 、存储 、网络设备规格的规模总量,综合体现智算中心计算能力的理论上限值;基础设施性能(L1 层),包含人工智能计算任务执行过程中通信和存储的实际性能 ,体现人工智能系统软硬协同的能力 ,直接影响业务的运行效率;业务处理能力(L2 层),包括智算中心处理训练 、推理业务的计算能力,体现智算中心提供智能算力服务的质量 。各层级具体评估内容包括以下内容 。

  3

  GB/T 46346—2025

  a) 硬件规格能力(L0 层):

  1) 硬件规格是智算中心的固有属性,由所有计算 、网络 、存储设备(组)的规格 、数量 、可扩展性等硬件特性,以及基础设施建设 、供电能力 、物理空间等因素综合决定;

  2) 硬件规格通过算力规模 、组网规模 、存储规模评估域进行评估:其中 ,算力规模主要评估智算中心所有计算节点的总规格算力,组网规模评估智算中心参数面网络中计算节点的数量,存储规模主要评估智算中心的整体存储容量 。

  b) 基础设施能力(L1 层):

  1) 通信性能:智算中心计算节点之间,以及智算中心与外部网络之间数据传输的能力,实现大规模并行计算和分布式任务的高效协同的特性;

  2) 存储性能:智算中心存储系统对人工智能系统全生存周期数据的读写 、管理和持久化能力,实现大规模 、高性能数据处理的特性 。

  c) 业务处理能力(L2 层):在智算中心实际业务中 ,智能算力可能因模型架构 、内存带宽 、软件栈优化等因素无法被充分利用 ,与硬件理论峰值性能存在差距 ;业务处理能力旨在量化智算中心运行实际业务负载的效率,更贴近真实场景的效能评估,评估内容包括训练性能 、推理性能和算力可用度 。

  图 2 智算中心计算能力评估框架

  5.4 分类原则

  依据智算中心计算能力指标体系开展综合评估 ,智算中心划分为 5 个类别(各类别对应的计算能力指标示例见附录 A),分别适用于不同应用场景和人工智能系统和不同规模的用户需求 ,分类原则如下 。

  a) Cat1:智能算力规模在数个 PFLOPS(FP16),一般用于中小型企业日常处理的基础型 AI 任务,满足百亿以下参数模型的训练和/或推理,如小型智能化应用程序等 。

  b) Cat2:智能算力规模在数十 PFLOPS(FP16),一般用于大型企业日常处理更复杂的 AI 任务,满足百亿到千亿区间参数模型的训练,如互联网智能推荐系统 、行业大模型微调等 。

  c) Cat3:智能算力规模在数百 PFLOPS(FP16),一般用于地区级算力需求 ,其为多个企业和机构提供共享的计算资源 ,满足千亿到万亿区间参数模型的训练以及小规模租赁业务 ,支持区域内的大规模 AI 模型训练和推理需求,如智慧城市管理 、大型 MoE 大模型训练等 。

  d) Cat4:智能算力规模在数个 EFLOPS(FP16),一般用于国家级算力需求 ,满足万亿到十万亿区间参数模型的训练 ,其用于支持全国范围内的大规模 AI 模型训练和应用以及大规模租赁业务 ,通常用于国家级重大项目和战略性研究 ,如国家级通用大模型训练 、生物医药中的 AI应用等 。

  e) Cat5:智能算力规模在数十 EFLOPS 及以上(FP16),一般用于跨国和跨区域级算力需求 ,满

  4

  GB/T 46346—2025

  足超十万亿参数模型的训练,支持最前沿的 AI 研究和超大规模模型的训练,如超大规模多模态大模型 、宇宙模拟中的 AI 应用等 。

  6 评估指标

  6.1 硬件规格指标

  6.1.1 算力规模

  智算中心中所有人工智能加速器的规格算力之和,类型包括:

  a) 单位时间内 INT8 操作数,量纲为 OPS@INT8;

  b) 单位时间内 FP16 操作数,量纲为 FLOPS@FP16;

  c) 单位时间内 BF16 操作数,量纲为 FLOPS@BF16;

  d) 单位时间内 FP32 操作数,量纲为 FLOPS@FP32;

  e) 可根据智算中心支持的计算精度范围增加额外规格算力类型,如 FP8、TF32、FP64 等 。

  6.1.2 组网规模

  智算中心参数面网络中计算节点的数量,表征网络所能连接计算部件的规模 。

  6.1.3 存储规模

  智算中心存储规模包括总容量和可用容量 。

  a) 总存储容量:存储系统中存储部件物理容量总和 。

  b) 可用存储容量:存储系统可用于存放数据的容量总和 。

  6.2 基础设施指标

  6.2.1 通信性能

  6.2.1.1 数据传输性能

  按照智算中心网络系统中数据传输的通道类型 ,评估对象主要分为总线平面和网络平面 。其中 ,通过总线协议以内存语义等协议特征实现通信的传输平面称为总线平面 ,用于完成 AI 模型训练过程中参数传递等行为 ;通过 ROCE 、IB 等网络协议以消息语义实现通信的传输平面称为网络平面 ,用于完成 AI 模型训练过程中模型的参数同步等行为 。评估指标包括以下内容 。

  a) 传输带宽,数据传输的最高速率,具体包括以下内容 。

  1) 总线平面传输带宽:在通过总线协议连接的智算中心网络系统中 ,从一个加速器通过总线架构传输数据到另一个计算加速器之间的最高速率 ,单位为字节每秒(Byte/s),表征处理器之间的数据传输能力 。

  注:总线平面通信包括 AI 加速器之间的数据传输和 AI 加速器与通用处理器之间的数据传输,本文件主要关注前者 。

  2) 网络平面传输带宽:在智算中心网络系统中(超出单个总线平面范围内),计算节点之间通过网络平面传输数据的最高速率 ,单位为比特每秒(bit/s),表征该加速器能够向外发送数据的传输速率,是衡量网络平面内节点通信性能的重要指标 。

  b) 传输时延,数据传输过程中通信的最短时间和最长时间,具体包括以下内容 。

  1) 总线平面传输时延:在通过总线协议连接的智算中心网络系统中 ,通过总线架构直接连接的两个计算节点(包括 AI 加速器之间,或通用处理器与 AI 加速器之间)进行通信的最

  5

  GB/T 46346—2025

  短时间和最长时间 ,单位为纳秒(ns),表征总线平面处理器之间数据传输的速率 ,反映处理器之间的通信延迟性能 。

  2) 网络平面传输时延:在智算中心网络系统中(超出单个总线平面范围内),计算节点之间通过网络平面进行通信的最短时间和最长时间 ,单位为微秒(μs),表征网络平面内节点间数据传输的速率,反映网络的延迟性能和响应能力 。

  6.2.1.2 带宽收敛比

  智算中心网络架构中的所有下行接口的总带宽与所有上行接口的总带宽的比值 。

  带宽收敛比表征智算中心的网络通信性能 。

  注 1:带宽收敛,是指数据报文在智算中心网络架构的传输过程中,由于网络架构 、网络设备等非故障原因而不能实现无阻塞交换 。

  注 2:在带宽收敛时,网络中的某些链路或设备端口可能会出现堵塞,从而导致数据报文的传输速率下降,甚至有些报文可能因缓冲区溢出而被丢弃 。

  6.2.1.3 对分带宽

  用一虚拟截面将网络划分为两个节点数目都相同的子网时 ,穿过该截面的最小传输率 ,单位为比特每秒(bit/s)。

  对分网络带宽是说明沿等分网络最小通信带宽的性能指标,表征智算中心的网络吞吐率能力 。

  6.2.2 存储性能

  6.2.2.1 存储 IOPS

  智算中心存储系统中所有存储节点单位时间内能够处理的输入输出操作总次数 。

  IOPS 表征智算中心中存储系统的响应速度 、效率,以及在高负载情况下的处理能力 。

  6.2.2.2 存储带宽

  智算中心存储系统中所有存储节点或存储设备的读/写带宽进行聚合所得到的总带宽 ,单位为字节每秒(Byte/s)。

  存储带宽表征智算中心中存储系统在特定时间内能够支持的最大数据传输速率 。

  6.3 业务处理指标

  6.3.1 训练性能

  6.3.1.1 实际吞吐率

  实际吞吐率表征智算中心对特定训练作业的处理能力,分为以下内容 。

  a) 单模型训练吞吐率:智算中心达到训练任务的测试中止条件时的数据量和任务执行时间的比值 ,单模型训练吞吐率(Th)定义如公式(1)。 根据模型类型不同吞吐率的具体定义和单位有所变化,主要包括:

  1) 对 视 觉 类 模 型 ,吞 吐 率 为 在 固 定 分 辨 率 范 围 内 每 秒 处 理 的 图 片 数 量 ,单 位 为 图 片 每 秒(images/s);

  2) 对自然语言处理类模型,吞吐率为每秒处理的句子数量,单位为句子每秒(sentences/s);

  3) 对自然语言生成类模型 ,吞吐率为在固定输入长度范围(句中单词或字的个数)条件下 ,每秒处理的词元数量,单位为词元每秒(tokens/s)。

  6

  GB/T 46346—2025

  Th …………………………( 1 )

  式中:

  Nsample ——训练数据集中的样本数量;

  TT ——总体训练用时 。

  b) 多模型训练吞吐率综合加速比(可选):智算中心系统在给定任务集合 S 上 ,实际吞吐率与每任务基线吞吐率之比的加权几何平均 。

  注:基线吞吐率是参考计算系统在给定场景上的吞吐率 。

  6.3.1.2 单位算力吞吐率

  单位算力吞吐率是在满足训练精度一致的前提下 ,智算中心中一个算力单位提供的平均吞吐率 。单位算力吞吐率(Th unit)定义如公式(2)。

  注:算力单位指智算中心中提供算力的最小设备单位,比如人工智能加速卡 、人工智能加速模组等 。

  Th unit …………………………( 2 )

  式中:

  Nsample ——训练数据集中的样本数量;

  TT ——总体训练用时;

  Nunit ——智算中心内部算力单位的数量;

  Punit ——单个算力单位的规格算力,一般精度为 FP16/BF16。

  6.3.1.3 总体训练时间

  总体训练时间是智算中心在特定数据集上训练一个模型使其达到预定目标性能(如准确率 、损失值等)或完成特定训练轮数时所用的时间(不包括预处理和模型加载时间)。

  总体训练时间及其细化指标见表 1。

  表 1 训练时间

  指标

  说明

  总体训练用时 TT

  从训练开始读入数据,到模型训练完毕 、完成在非易失性存储器上的持久化,所使用的总时间

  数据读入用时 TL a,b

  为训练目的 ,将训练数据从存储设备(如对象存储 OSS、文件存储 NFS等)加载到加速器内存(或在加速器缺少或未配置存储时加载到主存),并使数据达到可供训练使用状态所耗费的时间

  训练启动用时 TW

  多加速器训练时 ,从训练开始指令到所有加速器都被分配并开始执行训练任务所用的时间

  训练用时 c,d TTR

  从训练开始命令调用到正常训练退出e 所用的时间

  第 i 个(i 为正整数)训期运行用时 TEP(i)

  训练过程第 i 次遍历(使用)训练集所用的时间

  第j 次(j 为正整数)验证用时 TV(j)

  第j 次使用验证数据集试运行当前模型,得出当前模型准确率等指标值的过程所用的时间

  模型格式转化用时 TCV

  训练完毕后,将结果模型转化为要求格式所使用的时间

  模型持久化用时 TP

  将加速器内存中的模型读出,并完整写入非易失性存储所用的时间

  节点间数据传输用时 TNC

  源节点开始发送数据至目标节点完全接收数据的所用的时间

  7

  GB/T 46346—2025

  表 1 训练时间( 续 )

  指标

  说明

  注:假设训练数据已封装为机器学习框架能够处理的格式 。

  a 数据并行时,数据读入用时为数据读入开始至所有工作节点都完整获得所需数据的总用时(含网络传输用时)。 b 数据读入过程可伴随训练同步发生,时间计入训练用时 。

  c 训练用时包含数据预处理用时 。

  d 表中受测系统无法统计的时间,不作要求 。

  e 训练退出可有多种充分条件 。正常结束训练退出条件,如测试集准确率门限等 。

  6.3.1.4 有效训练时间

  有效训练时间指模型完成训练所需的时长 。有效训练时间不包含训练过程中由于故障发生产生的训练时间损失 。有效训练时间可能有多轮,每轮包括训练回滚耗时和断点续训耗时,如图 3 所示 。

  图 3 有效训练时间示意图

  6.3.1.5 算力利用率

  算力利用率是指智算中心在运行过程中 ,实际有效使用的算力资源占理论最大算力资源的比例 。算力利用率表征计算资源的分配合理性和使用效率 ,由任务调度策略 、资源分配均衡性 、并行计算效率 、负载动态调整能力,以及通信与数据 I/O 优化水平等因素共同决定 。模型算力利用率(MFU)定义如公式(3)。

  MFU …………………………( 3 )

  式中:

  FLOPSiter ——模型训练的理论浮点运算次数;

  -

  T ——模型有效训练时间;

  Nunit ——智算中心内部算力单位的数量;

  Punit ——单个算力单位的规格算力 。

  6.3.1.6 集合通信带宽

  智算中心在训练场景下集合通信的有效传输带宽,其定义取决于被训练的模型结构,分为:

  a) 稠密模型的训练场景下,在 TP 域的 AI 加速器之间执行 All⁃Reduce 通信操作进行数据同步,大数据量并行传输下,单次 TP 传输数据量与 TP 域内各 AI 加速器的最大传输时间的比值;

  b) 稀疏模型的训练场景下 ,在 EP 域的 AI 加速器之间执行 All⁃to⁃All 通信操作进行数据同步 ,大数据量并行传输下,单次 EP 传输数据量与 EP 域内各 AI 加速器的最大传输时间的比值 。

  8

  GB/T 46346—2025

  6.3.2 推理性能

  6.3.2.1 推理时延

  智算中心多次处理推理计算任务或提供模型推理服务的间隔时间 ,时间单位为毫秒(ms),推理任务总延时及其细化指标见表 2。

  表 2 推理时延

  指标

  说明

  推理任务总延时 a TI

  在多次连续推理中,完成所有推理任务的端到端总延时

  单样本推理延时 TIN

  被测系统在对单个样本推理时 ,从接收到该样本开始处理到推理结束之间的时间差

  首词元延时 TTFT

  被测者收到样本时间与被测者发送第一个词元时间的差

  下个词元平均延时 TPOT

  被测者发送某一个词元与发送下一个词元时间差的平均值

  a 因作业到达模式不同,推理总延时

  TI 可能包括被测者等待作业的间隔时间 。

  6.3.2.2 并发吞吐率

  智算中心线上系统服务在满足业务所需要的 TTFT 和 TPOT 的条件下 ,每秒能成功处理的用户请求数量(QPS)定义如公式(4)、输出词元数量(Th out)定义如公式(5)。 并发吞吐率表征系统在高并发情况下的计算任务处理能力和性能 。

  QPS …………………………( 4 )

  Th out …………………………( 5 )

  式中:

  Nquery ——推理请求总数量;

  Nbatch ——计算任务的批数量;

  Ntoken ——每批计算的词元数量;

  Tl ——请求回答时间 ,即被测系统开始回答输出第一个词元开始到该轮样本请求回答全部结束为止 。

  6.3.2.3 单位算力吞吐率

  单位算力吞吐率在推理场景下是指 ,在满足业务所需要的 TTFT 和 TPOT 的条件下 ,智算中心中一个算力单位提供的训练吞吐率 。单位算力吞吐率(Th unit)定义如公式(6)。

  Th unit …………………………( 6 )

  式中:

  nbatch ——计算任务的批数量;

  ntoken ——每批计算的词元数量;

  Tl ——请求回答时间 ,即被测系统开始回答输出第一个词元开始到该轮样本请求回答全部结束为止;

  9

  GB/T 46346—2025

  Nunit ——智算中心内部算力单位的数量;

  Punit ——单个算力单位的规格算力,一般精度为 FP16/BF16。

  6.3.3 算力可用度

  6.3.3.1 平均无故障工作时间

  智算中心在执行特定计算任务时 ,计算任务启动后业务平均连续无故障时间 ,平均无故障工作时长(MTBF)定义如公式(7)、公式(8)。

  TS = T1 - T0 …………………………( 7 )

  MTBF TS …………………………( 8 )

  式中:

  TS ——无故障工作时间,单位为毫秒(ms);

  T1 ——发生业务故障而无法继续执行任务的(一组)时点;

  T0 ——计算任务(重新)启动执行的(一组)时点;

  N ——发生故障的次数,N≥3。

  6.3.3.2 平均故障恢复时间

  智算中心在执行特定计算任务时 ,某部分或整体从发生故障而无法继续执行任务 ,到恢复正常运行所需要的平均时间,平均故障恢复时长(MTTR)定义如公式(9)、公式(10)。

  TF = TF2 - TF1 …………………………( 9 )

  MTTR TF …………………………( 10 )

  式中:

  TF ——故障恢复用时,单位为毫秒(ms);

  TF1——发生业务故障而无法继续执行任务的(一组)时点;

  TF2——故障被修复 、任务重新执行的(一组)时点;

  M ——发生故障的次数,M≥3。

  6.3.3.3 有效工作时间占比

  有效工作时间占比是智算中心的业务平均无故障工作时间占总运行时间的百分比,有效工作时间占比(A)定义如公式(11)。

  A …………………………( 11 )

  式中:

  tS ——平均无故障工作时间;

  tF ——平均故障恢复时间 。

  有效工作时间占比表征智算中心能够在面对故障 、意外事件或负载变化时保持稳定运行 ,持续提供可用的服务的能力 。有效工作时间占比由智算中心部件设备及链路的可靠性 、智算中心冗余备份等系统可靠性设计及故障快速恢复机制等因素共同决定 。

  7 评估方法

  7.1 总则

  正式评估前 ,根据评估对象(智算中心)的业务活动需求确定评估域 。 当需要裁减评估指标时 ,每

  10

  GB/T 46346—2025

  个评估域至少保留一项评估指标 。

  使用专业工具对第 7 章所规定的评估方法进行日志记录 、数据采集 、指标项计算 。智算中心计算能力评估工具示例见附录 B 。

  7.2 算力规模

  智算中心的算力规模,应按以下方法测量评估:

  a) 对任一服务器单机,关闭系统节能设置,保持所有核心同时运行,且核间通信带宽不低于测试负载容量;

  b) 按 6.1.1 的规定 ,定义不同精度下 ,特定尺寸的矩阵乘法(元素为 0 或非 0),并估计完成 1 次矩阵乘加所需计算量,矩阵尺寸应能完全使用核尺寸;

  c) 使用单加速卡执行矩阵乘法,若干次获得平均时间;

  d) 求 单 加 速 卡 在 特 定 精 度 下 ,单 次 矩 阵 乘 的 计 算 量 与 平 均 时 间 的 商 ,作 为 单 加 速 卡 规 格 计 算能力;

  e) 累计服务器内所有该精度单加速卡规格计算能力,作为单服务器特定精度规格计算能力;

  f) 累计所有服务器,在该精度下的规格计算能力 。

  7.3 组网规模

  智算中心的组网规模指标,应按以下方法测量评估:

  a) 准备必要的网络拓扑测试工具或软件;

  b) 使用网络拓扑测试工具测量网络节点的数量,包括服务器 、交换机 、路由器等设备的数量 。

  7.4 存储规模

  智算中心的存储规模指标,应按以下方法测量评估:

  a) 确定存储系统中所有存储设备的总物理容量 ,统计所有存储盘的物理容量总和 ,记录为存储系统的裸容量;

  b) 考虑存储配置的冗余和数据保护机制(如 RAID)等设计 ,计算出存储系统中实际可用于数据存放的容量 。

  7.5 通信性能

  智算中心的通信性能指标,应按表 3 所示的方法测量评估 。

  表 3 通信性能指标测量方法

  指标

  测量方法

  总线平面传输带宽

  a) 根据均匀分布的概率模型或其他指定概率模型,选取 m 对同一总线协议连接系统内的AI 加速器 ,选取 n 对同一总线协议连接系统内通用处理器与 AI 加速器 ,m 和 n 要满足合理采样次数;

  b) 对每一组采样处理器使用带宽测量工具进行测量;

  c) 计算 m 对 AI 加速器之间带宽的均值作为 AI 加速器之间的总线平面传输带宽 ;计算 n对通用处理器和 AI 加速器之间带宽的均值作为通用处理器和 AI 加速器之间的总线平面传输带宽

  11

  GB/T 46346—2025

  表 3 通信性能指标测量方法( 续 )

  指标

  测量方法

  网络平面传输带宽

  a) 根据均匀分布的概率模型或其他指定概率模型,选取p 对网络系统中的节点,确保采样覆盖不同拓扑路径,以满足合理的测试覆盖范围;

  b) 使用网络性能测试工具进行带宽测量 ,记录节点间的最大传输速率 ,重复测试不少于三次,确保数据可靠性;

  c) 计算 p 对节点间带宽的平均值 ,作为网络平面传输带宽的测量结果 。这个值反映节点或服务器的最大数据传输能力

  总线平面传输时延

  a) 根据均匀分布的概率模型或其他指定概率模型,选取 m 对同一总线协议连接系统内的AI 加速器 ,选取 n 对同一总线协议连接系统内通用处理器与 AI 加速器 ,m 和 n 要满足合理采样次数;

  b) 对每一组采样处理器使用时延测量工具测量最短时间和最长时间;

  c) 分 别 计 算 m +n 对 采 样 处 理 器 的 最 短 时 延 均 值 和 最 长 时 延 均 值 ,作 为 总 线 平 面 传 输时延

  网络平面传输时延

  a) 根据均匀分布的概率模型或其他指定概率模型 ,选取 q对网络系统中的节点进行时延测试,确保覆盖不同区域的节点,q 需满足合理的采样要求;

  b) 使用时延测量工具 ,测量每对节点之间的最短通信时间和最长通信时间 ,分别执行 m次测量(m≥10 次),确保数据的稳定性和准确性;

  c) 分别计算 q对节点之间的最短时延均值和最长时延均值 ,作为网络平面点对点时延的测量结果,用于表征网络节点间的数据传输延迟

  带宽收敛比

  a) 准备必要的带宽测量工具或软件;

  b) 使用带宽测量工具获得每台服务器与汇聚交换机间的上行带宽,与每台服务器与接入交换机间的下行带宽;

  c) 计算所有服务器下行带宽之和与上行带宽之和,并计算二者的比值得到收敛比

  对分带宽

  a) 准备必要的对分带宽测试工具或软件;

  b) 使用对分带宽测试工具/软件测试通信系统对分带宽,执行对分带宽测试;

  c) 在同一网络平面内,对每台计算设备,进行 m(3≤m≤10)次数对分带宽测量,记录其中最高对分带宽;

  d) 对所有计算设备的最高对分带宽求和作为对分带宽

  7.6 存储性能

  智算中心的存储性能指标,应按表 4 所示的方法测量评估 。

  表 4 存储性能指标测量方法

  指标

  测量方法

  存储 IOPS

  a) 明确存储系统影响因素 ,如磁盘类型 、RAID 级别 、缓存大小 、块大小 、操作系统和文件系统等;

  b) 使用 IOPS 测试工具测量存储系统 I/O 性能,执行 I/O 测试;

  c) 进行 m(3≤m≤10)次 I/O 测试,记录测试过程中的 IOPS;

  d) 取记录的 IOPS 最大值作为存储系统 IOPS

  12

  GB/T 46346—2025

  表 4 存储性能指标测量方法( 续 )

  指标

  测量方法

  存储带宽

  a) 对聚合链路内任一存储服务器;

  b) 使用带宽测试工具测量带宽,执行数据传输测试;

  c) 对每一存储服务器进行 m(3≤m≤10)次数据传输测试,记录其中最高传输速率;

  d) 对每一存储服务器的最高传输速率求和作为聚合带宽

  7.7 训练性能

  7.7.1 实际吞吐率

  智算中心实施训练任务的实际吞吐率应按照 GB/T 45087—2024 中关于 AI 服务器集群训练过程实际吞吐率的相关内容测量评估 。

  7.7.2 总体训练时间

  智算中心实施训练任务的训练用时应按照 GB/T 45087—2024 中关于 AI 服务器集群训练用时的相关内容测量评估 。

  7.7.3 有效训练时间

  智算中心的有效训练时间指标,应按以下方法测量评估:

  a) 统计模型训练过程中发生故障后产生的训练回滚耗时和断点续训耗时,记作总损失;

  b) 用单次训练模型任务的总时间减去训练过程中故障产生的总损失,即得到有效训练时间 。

  7.7.4 算力利用率

  智算中心的算力利用率指标应按以下方法测量评估:

  a) 使用智算中心计算能力评估工具 ,向智算中心提交一系列模型计算任务 ,确保任务充分覆盖所有计算资源;

  b) 监控并记录智算中心在任务执行过程中的上表中提及的变量使用情况;

  c) 统计该智算中心的卡数和单卡芯片理论算力;

  d) 按照 6.3.1.5 中公式(3)计算算力利用率 。

  注 1:算力利用率测量时使用整形或浮点型数据精度进行统计 。

  注 2:算力利用率在混合精度训练时,需要准确定义单加速卡规格算力,不能单独以 FP16/FP8 算力规格作为基准值。

  注 3:算力利用率指标进行横向比较的前提是 ,不同智算中心从相同的 CKPT 训练相同的词元数 ,对应的训练精度相同;在训练精度一致的迭代区间内,通过多步平均分别计算不同智算中心的算力利用率 。

  7.7.5 单位算力吞吐率

  智算中心单位算力吞吐率指标应按以下方法测量评估 。

  a) 使用智算中心计算能力评估工具,准备测试脚本和待测试模型的 CKPT 。

  b) 以统一的 CKPT 为模型训练初始点,运行测试脚本,打印每步迭代的单加速卡吞吐率 。

  c) 使模型在智算中心上训练统一的词元数 ,所得模型的精度损失在合理范围内 。如 ,模型训练统一的词元数 ,以 FP32 精度训练模型至某 一 Loss 值 ,以该值为基准 ;混合精度训练相同的模型与词元数,所得 Loss 值,与基准值差异<0 .1% 。

  13

  GB/T 46346—2025

  d) 上述训练过程中记录吞吐率数据,按照 6.3.1.2 中的公式(2)计算单位算力吞吐率 。

  注:单位算力吞吐率进行横向对比的前提是 ,不同智算中心从相同的 CKPT 开启训练 ,训练相同的词元数时 ,对应

  的训练精度相同;在训练精度一致的迭代区间内,通过多步平均分别计算不同智算中心的单位算力吞吐率 。

  7.7.6 集合通信带宽

  智算中心集合通信带宽指标应按以下方法测量评估:

  a) 准备必要的对分带宽测试工具或软件;

  b) 指定参与计算的加速器数量 ,匹配 TP/EP/DP 通信域规模 ,根据 TP/EP/DP 的各自通信域设计通信节点列表,确保通信在指定的加速器间进行;

  c) 执行相应通信算子来指定所测试的集合通信模式(如 all⁃reduce、all⁃to⁃all、alltoallv 等);可通过参数指定测试的数据量大小 、起始范围 、数据类型等;

  d) 统计单次通信域内的数据传输量和通信域内各加速器传输时间的最大值 ,按照 6.3.1.6 计算集合通信带宽指标 。

  7.8 推理性能

  7.8.1 并发吞吐率

  智算中心的并发吞吐率指标,应按以下方法测量评估:

  a) 编写测试脚本模拟实际工作负载;

  b) 设置测试时间需大于一个请求的完整响应时间 ,从较低的并发数开始 ,逐渐增加并发用户数或请求频率,观察系统响应;

  c) 记录各并发量级测试阶段的总吞吐率;

  d) 按照 6.3.2.2 中的公式(4)或公式(5)计算各并发量级的吞吐率 ,选择其中的最大值作为系统服务并发吞吐率 。

  7.8.2 推理时延

  智算中心的推理时延应按照 GB/T 45087—2024 中关于 AI 服务器集群推理时间的相关内容测量评估 。

  7.8.3 单位算力吞吐率

  智算中心的单位算力吞吐率指标,应按以下方法测量评估:

  a) 按照 7.8.1 的测量评估方法,完成并发吞吐率评估;

  b) 将并发吞吐率除以被测系统的智算中心算力规模,得到单位算力吞吐率指标 。

  7.9 算力可用度

  7.9.1 平均无故障工作时间

  智算中心的平均无故障工作时间指标,应按以下方法测量评估 。

  a) 启动智算中心执行计算任务并进行数据收集 ,通过故障记录系统或人工记录等方式 ,统计业务中断的发生时间 、故障类型和恢复时间 。

  b) 当发生以下情况时,记录为一次中断:

  1) 训练过程中,当出现硬件故障导致训练终止,或无备用资源自动替换时,可判定业务运行失效停止;

  注 1:训练过程中因硬件资源故障,系统自动识别并发生备件自动替换的现象,全程无人工干预 。

  14

  GB/T 46346—2025

  2) 训练过程中,当出现软件错误导致训练终止,或因软件问题导致训练效果异常/中断无法自动恢复时,判定业务运行失效停止 。

  注 2:训练过程中系统自动检测识别软件系统发生异常 ,并做出相应的恢复措施 ,使系统恢复正常训练状态,期间业务不能完全中断停止,否则仍判定为业务运行失效停止 。

  c) 对于每次业务中断,记录其发生时间与上一个业务中断恢复时间的间隔 。

  d) 按照 6.3.3.1 中的公式(7)、公式(8)计算所有无故障工作时间的平均值 ,作为平均无故障工作时间 。

  7.9.2 平均故障恢复时间

  智算中心的平均故障恢复时间指标应按以下方法测量评估:

  a) 明确故障范围与类型(见附录 C),如服务器硬件故障 、网络中断 、数据损坏 、电力中断 、软件故障等;

  b) 启动智算中心执行计算任务并进行数据收集 ,通过故障记录系统或人工记录等方式 ,监测并记录故障的发生时间 、故障类型和恢复时间;

  c) 按 照 6.3.3.2 中 的 公 式(9)、公 式(10)计 算 所 有 故 障 恢 复 时 间 的 平 均 值 ,作 为 平 均 故 障 恢 复时间 。

  7.9.3 有效工作时间占比

  智算中心的有效工作时间占比指标在根据 7.9.1 和 7.9.2 所示评估方法操作,获得平均无故障工作时间和平均故障恢复时间的测量值后,按照 6.3.3.3 中的公式(11)计算有效工作时间占比 。

  15

  GB/T 46346—2025

  附 录 A

  (资料性)

  各类型智算中心的计算能力指标要求示例

  按照计算能力评估指标,各类型智算中心对应的量化示例见表 A .1 所示 。其中,训练性能 、推理性能与业务所用的人工智能模型的架构 、模态 、参数规模等因素紧密相关,分类门限值一般根据不同业务需求在实践过程中进一步确定 。

  表 A.1 计算能力指标要求

  评估维度

  评估域

  评估指标

  1类

  2类

  3类

  4类

  5类

  硬件规格

  算力规模

  规格算力

  (FLOPS@FP16)

  >100 T

  >10 P

  >100 P

  >1 E

  >10 E

  组网规模

  网络规模

  百卡以下

  百卡级

  千卡级

  万卡级

  十万卡级

  存储规模

  存储容量

  TB 级

  TB 级

  PB 级

  PB 级

  PB 级

  基础设施

  通信性能

  总线平面传输带宽(AI 加速器间)

  100 GByte/s

  200 GByte/s

  400 GByte/s

  600 GByte/s

  800 GByte/s

  网络平面传输带宽(AI 加速器间)

  100 Gbit/s

  200 Gbit/s

  200 Gbit/s

  200 Gbit/s

  400 Gbit/s

  总线平面传输时延

  (最短时延)

  500 ns

  500 ns

  500 ns

  500 ns

  500 ns

  网络平面传输时延

  (最短时延)

  7 μs

  7 μs

  10 μs

  10 μs

  13 μs

  对分带宽

  400 Gbit/s*数十卡

  400 Gbit/s*数百卡

  400 Gbit/s*数千卡

  400 Gbit/s*数万卡

  400 Gbit/s*数十万卡

  带宽收敛比

  —

  —

  —

  —

  —

  存储性能

  存储 IOPS

  100 k

  1 000 k

  10 000 k

  100 000 k

  1 000 000 k

  存储带宽

  100 GByte/s

  1 000 GByte/s

  10 TByte/s

  100 TByte/s

  1 000 TByte/s

  业务处理

  训练性能

  实际吞吐率

  —

  —

  —

  —

  —

  单位算力吞吐率

  —

  —

  —

  —

  —

  总体训练时间

  —

  —

  —

  —

  —

  有效训练时间

  —

  —

  —

  —

  —

  算力利用率

  —

  —

  —

  —

  —

  集合通信带宽

  —

  —

  —

  —

  —

  推理性能

  并发吞吐率

  —

  —

  —

  —

  —

  单位算力吞吐率

  —

  —

  —

  —

  —

  16

  GB/T 46346—2025

  表 A.1 计算能力指标要求( 续 )

  评估维度

  评估域

  评估指标

  1 类

  2 类

  3 类

  4 类

  5 类

  业务处理

  推理性能

  推理延时

  —

  —

  —

  —

  —

  算力可用度

  平均无故障工作时间

  >15 d

  >7 d

  >5 d

  >1 d

  >12 h

  平均故障恢复时长

  <30 min

  <30 min

  <1 h

  <1 h

  <1 h

  有效工作时间占比

  >95%

  >90%

  >90%

  >85%

  >85%

  17

  GB/T 46346—2025

  附 录 B

  (资料性)

  智算中心计算能力评估工具示例

  B.1 工具说明

  智算中心计算能力评估工具套件是智算中心算力性能测试工具典型实现,集成了多种人工智能模型的测试负载 ,适用于各种算力规模 AI 服务器集群 、智算中心的规模 、性能 、可用性等技术指标的评估,能兼容主流 AI 加速器类型(如 CPU、GPU、NPU 等)和主流深度学习软件框架 。

  B.2 工具使用流程

  工具使用流程见图 B .1,主要环节包括:

  a) 由测试方(测试机构)与被测方确立测试项;

  b) 测试方在本地测试数据库注册测试项,并生成测试 ID;

  c) 测试方返回每个测试项的 ID 给被测方,被测方编辑、调试测试代码,在正式测试脚本中使用 ID;

  d) 被测方启动正式测试,测试方探知并监视测试 、获得测试结果 。

  图 B.1 工具使用流程示意图

  18

  GB/T 46346—2025

  附 录 C

  (资料性)

  智算中心故障等级分类

  智算中心故障分为如下三个等级,一般对不同等级的故障分别进行统计和处理 。

  a) 一级故障(严重故障):造成 AI 服务器宕机或训练任务中断的故障 。如 OS 宕机 、AI 加速器掉卡 、网络端口异常断开 、存储系统无法正常读写 、电力中断 、环境温湿度大幅超出阈值无法支持 AI 服务器正常运行等造成训练异常终止的故障 。

  b) 二级故障(较严重故障):无法保证 AI 服务器短时间内正常运行但训练任务尚未中断,需尽快排查处理的故障 ,如 AI 加速器等关键部件温度超过阈值 ,单路电力系统故障 ,环境温湿度轻微超出阈值等经过处理可快速恢复且过程中没有造成训练中断或者 AI 服务器异常宕机的故障 。

  c) 三级故障(一般故障):不影响 AI 服务器短时间正常运行 、不会造成训练任务中断的故障 ,如AI 服 务 器 单 个 风 扇 故 障 、单 个 电 源 故 障 等 可 以 快 速 替 换 部 件 恢 复 AI 服 务 器 正 常 运 行 的故障 。

  注:修复方法一般包含自动修复和手动修复 。

  19

29139278629
下载排行 | 下载帮助 | 下载声明 | 信息反馈 | 网站地图  360book | 联系我们谢谢