网站地图 | Tags | 热门标准 | 最新标准 | 订阅
您当前的位置:首页 > GB/T 46411-2025 科学数据收割规范 > 下载地址1

GB/T 46411-2025 科学数据收割规范

  • 名  称:GB/T 46411-2025 科学数据收割规范 - 下载地址1
  • 下载地址:[下载地址1]
  • 提 取 码
  • 浏览次数:3
下载帮助: 发表评论 加入收藏夹 错误报告目录
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表
新闻评论(共有 0 条评论)

资料介绍

  ICS 35. 020 CCS L 70

  中 华 人 民 共 和 国 国 家 标 准

  GB/T 46411—2025

  科学数据收割规范

  Specification forscientificdataharvesting

  2025-10-05发布 2025-10-05实施

  国家市场监督管理总局国家标准化管理委员会

  

  发

  

  布

  GB/T 46411—2025

  目 次

  前言 Ⅲ

  引言 Ⅳ

  1 范围 1

  2 规范性引用文件 1

  3 术语和定义 1

  4 收割内容 2

  4. 1 收割内容组成 2

  4. 2 收割内容组织与封装 3

  5 收割流程 4

  5. 1 总体流程 4

  5. 2 建立连接 4

  5. 3 获取清单 5

  5. 4 元数据收割 5

  5. 5 数据实体收割 5

  6 实现要求 6

  6. 1 传输协议 6

  6. 2 收割操作 6

  6. 3 其他要求 6

  附录 A (资料性) 科学数据收割请求及返回结果示例 7

  A. 1 建立连接示例 7

  A. 2 获取清单示例 7

  A. 3 获取元数据类型示例 8

  A. 4 元数据收割示例 8

  A. 5 数据实体收割示例 10

  附录 B (资料性) 科学数据收割接 口 12

  B. 1 接口规则 12

  B. 2 建立连接 12

  B. 3 获取清单 13

  B. 4 获取元数据类型 13

  B. 5 元数据收割 14

  B. 6 数据实体收割 14

  参考文献 16

  Ⅰ

  GB/T 46411—2025

  前 言

  本文件按照 GB/T 1. 1—2020《标准化工作导则 第 1部分 :标准化文件的结构和起草规则》的规定起草 。

  请注意本文件的某些内容可能涉及专利 。本文件的发布机构不承担识别专利的责任 。

  本文件由中华人民共和国科学技术部提出 。

  本文件由全国科技平台标准化技术委员会(SAC/TC486)归 口 。

  本文件起草单位 : 中国科学院计算机网络信息中心 、国家科技基础条件平台中心 、中国标准化研究院 、中国科学院国家空间科学中心 、中国农业科学院农业信息研究所 、中国科学院地理科学与资源研究所 、中国科学院空天信息创新研究院 、北京航空航天大学 、中国科学院青藏高原研究所 、中国科学院西北生态环境资源研究院 、中国科学院微生物研究所 、中国科学院国家天文台 、中国科学院高能物理研究所 、中国科学院北京基因组研 究 所(国 家 生 物 信 息 中 心) 、中 国 计 量 科 学 研 究 院 、中 国 科 学 院 植 物 研 究 所 、中国科学院海洋研究所 、中国科学院动物研究所 、中国科学院过程工程研究所 。

  本文件主要起草人 : 陈昕 、路长发 、李加洪 、沈志宏 、胡良霖 、周园春 、石蕾 、王志强 、杨青海 、邹 自 明 、王健 、王卷乐 、李国 庆 、高 孟 绪 、张 辉 、刘 宁 、董 翔 超 、蓝 晨 阳 、吴 朋 民 、潘 博 雅 、许 琦 、胡 晓 彦 、何 洪 林 、郭学军 、张耀南 、马俊才 、崔辰州 、齐法制 、鲍一明 、熊行创 、王姝 、刘佳 、杨晓娟 、张黎 、吴慧 、闫冬梅 、张斌 、马帅 、赵月红 。

  Ⅲ

  GB/T 46411—2025

  引 言

  科学数据作为科技创新要素 ,其共享交换的规模和频次急剧增长 ,对高效及时的科学数据交换的需求日趋迫切 。

  科学数据收割作为一种系统之间进行科学数据互操作的方式 , 由获取科学数据的一方主动发起 ,通过应用程序接口的方式获取另一个科学数据平台的科学数据信息或科学数据 。 收割操作可 自动化 、多频次地按需进行 ,减少人工操作工作量的同时 ,提升了数据交换的效率 。科学数据管理机构既可作为收割数据的一方 ,也可作为被收割数据的一方 ,进而实现科学数据管理机构间科学数据按需交换的 目 的 ,可有效提升科学数据管理机构之间科学数据汇聚和交换的规范性和效率 。

  Ⅳ

  GB/T 46411—2025

  科学数据收割规范

  1 范围

  本文件规定了科学数据的收割内容 、收割流程 、实现要求 。

  本文件适用于科学数据管理机构开展科学数据收割 ,生物种质与实验材料资源库等实物科技资源平台开展科学数据收割参照使用 。

  2 规范性引用文件

  下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款 。其中 , 注 日期的引用文件 ,仅该日期对应的版本适用于本文件 ;不注日期的引用文件 ,其最新版本(包括所有的修改单) 适用于本文件 。

  GB/T 30522 科技平台 元数据标准化基本原则与方法

  GB/T 30523 科技资源核心元数据

  GB/T 46207 科学数据标识编码规范

  3 术语和定义

  下列术语和定义适用于本文件 。

  3. 1

  科学数据 scientificdata

  在自然科学 、工程技术科学等领域 ,科学研究活动中形成的以及通过观测监测 、考察调查 、检验检测等方式获取的原始及其衍生信息的记录 ,或可用于科学研究活动的其他数据 。

  [来源 :GB/T 43708—2025,3. 1] 3.2

  科学数据标识 scientificdata identifier

  用于唯一标识科学数据的一组字符 。

  3.3

  元数据 metadata

  定义和描述其他数据的数据 。

  [来源 :GB/T 18391. 1—2009,3. 2. 16] 3.4

  数据实体 data entity

  具有一定主题 ,可以唯一标识并能够被计算机处理的一组数据内容 。

  注 : 一般由数据文件和数据库等一种或多种形式构成 。

  [来源 :GB/T 39912—2021,3. 7,有修改] 3.5

  科学数据收割 scientificdata harvesting

  由获取科学数据的一方发起 , 以平台系统间应用程序接口的互操作方式 ,主动获取另一方的科学数

  1

  GB/T 46411—2025

  据的操作 。

  注 : 一般在两个科学数据管理机构之间进行 , 以合作为目的 , 由一个科学数据管理机构 , 以接口协议的方式 , 主动获取另一个科学数据管理机构的某些科学数据元数据 信 息 以 及(或) 数 据 实 体 ;爬 虫 方 式 的 科 学 数 据 获 取 不 属 于科学数据收割 。

  3.6

  科学数据收割方 scientificdata harvester

  科学数据收割过程中主动发起科学数据收割动作 、获取科学数据的科学数据服务平台 。

  注 : 一般是具有科学数据汇聚与集成需求的科学数据管理机构 。具体收割服务通常由科学数据收割方的某个系统或中间件执行 。

  3.7

  科学数据被收割方 scientificdata provider

  科学数据收割过程中接收科学数据收割请求 、提供科学数据的科学数据服务平台 。

  注 : 一般是管理科学数据并有共享意愿和需求的科学数据管理机构或实物科技资源平台 。具体的服务通常由科学数据被收割方的某个系统或中间件执行 。

  4 收割内容

  4. 1 收割内容组成

  科学数据收割内容包括科学数据元数据和科学数据实体 ,如图 1所示 。

  — 科学数据元数据应包括科学数据标识 、科学数据实体访问地址以及溯源信息等其他信息 。其中 ,科学数据实体访问地址是可访问和获取到科学数据实体的链接地址,根据科学数据实体规模和管理方式的不同 ,可以是单一科学数据实体的地址,也可以是一组科学数据实体地址的列表 ;对于不支持交换的科学数据实体 ,其科学数据实体访问地址可以为空 。科学数据元数据收割可用于科学数据目录服务等场景 。

  — 科学数据实体可被科学数据标识引用 ,可通过科学数据实体访问地址被获取 。科学数据实体收割可用于科学数据实体内容的交换 。

  科学数据元数据收割和科学数据实体收割应分别基于科学数据清单和科学数据实体访问地址等科学数据收割辅助信息开展 。

  — 科学数据清单由科学数据被收割方提供 ,是科学数据被收割方可被收割的全部或部分科学数据的基本信息 ;是一组数据对象的列表 ,其中 ,每个数据对象的要素应包括科学数据标识 、科学数据实体访问地址和最后更新时间 。

  — 科学数据实体访问地址列表可由科学数据被收割方提供 ,也可由科学数据收割方根据科学数据清单自行生成 ;是一组数据对象的列表 ,其中 ,每个数据对象的要素应包括科学数据标识 、科学数据实体访问地址或科学数据实体访问地址列表 。

  2

  GB/T 46411—2025

  图 1 科学数据收割内容组成

  4.2 收割内容组织与封装

  4.2. 1 科学数据清单

  科学数据清单组织与封装的相关要求如下 :

  — 应以 JavaScript对象表示法(JSON)或可扩展标记语言(XML)格式进行组织和封装 ;

  — 应采用 UTF-8编码格式 ,汉字使用中文半角 ,英文字母 、数字和符号使用英文半角 ;

  — 未做其他约定时 ,科学数据标识的编码规则应按照 GB/T 46207的规定进行编制 。

  科学数据清单的返回报文示例见附录 A 中 A. 2。

  4.2.2 科学数据元数据

  科学数据元数据组织与封装的相关要求如下 :

  — 应以 JSON 或 XML格式进行组织和封装 ;

  — 应采用 UTF-8编码格式 ,汉字使用中文半角 ,英文字母 、数字和符号使用英文半角 ;

  — 元数据标准化方法应符合 GB/T 30522要求 ;

  — 未做其他约定时 ,应按照 GB/T 30523的要求组织元数据内容和格式 ;标签名宜采用 GB/T 30523元数据要素和实体的英文名 ,数值宜参照 GB/T 30523的值域要求 , 以结构化数据形式组织 ;

  — 采用其他元数据标准时 ,宜明确元数据标准类型 、要素和词表等 。

  科学数据元数据的返回报文示例见 A. 4。

  4.2.3 科学数据实体访问地址列表

  科学数据被收割方提供的科学数据实体访问地址列表按照 4. 2. 1 中的要求进行组织和封装 。列表中的科学数据实体访问地址应为包括协议头 、主机/根目录地址 、文件路径等的完整地址 。

  3

  GB/T 46411—2025

  此外 ,科学数据实体访问地址为临时生成的存储空间地址或私链地址等无法长时间多次使用的方式时 ,用户名 、密码 、端口信息等参数信息应包含在科学数据实体访问地址中 ;否则 ,相关参数信息应采用其他方式交换 ,见 5. 2。

  4.2.4 科学数据实体

  科学数据实体应以数据文件或数据集的形式进行组织 。对于数据库等形式管理的科学数据实体 ,应按照收割条件选取对应的数据内容 ,并封装成文件形式后参与收割 。

  5 收割流程

  5. 1 总体流程

  科学数据收割主要包括建立连接 、获取清单 、元数据收割 、数据实体收割等流程 ,如图 2所示 。其中元数据收割和数据实体收割可同步进行 。

  图 2 科学数据收割流程

  5.2 建立连接

  建立连接由科学数据收割方向科学数据被收割方发起 ,获得科学数据被收割方的连接信息 。

  返回的连接信息应包括 :

  — 科学数据被收割方的身份认证信息(如令牌) ;

  — 可支持的科学数据收割操作信息 :科学数据被收割方可支持的科学数据收割操作的列表 ,包括

  4

  GB/T 46411—2025

  每个操作的名称和请求访问地址等 。

  返回的连接信息宜包括 :科学数据实体的访问参数信息 :包括访问地址的根目录地址 、端口号 、支持的最大连接数等 。

  建立连接的具体流程如下 。

  a) 科学数据收割方向科学数据被收割方发出建立连接的请求 ,请求中包含自身的身份信息 。

  b) 科学数据被收割方对请求中科学数据收割方的身份进行验证 。

  c) 验证通过 ,将连接信息封装后 ,发送给科学数据收割方 。

  d) 如果验证不通过 ,科学数据被收割方将拒绝建立连接请求 ;科学数据收割方获得连接资格后 ,重新发起建立连接请求 ;否则 ,收割流程结束 。

  e) 科学数据收割方应记录连接信息 ,作为开展后续收割流程的参数信息 。

  建立连接成功后 ,科学数据收割方可按需 、多次向科学数据被收割方发出收割操作请求 ,直至连接失效 。

  5.3 获取清单

  由科学数据收割方向科学数据被收割方发起 ,获得科学数据被收割方可被收割的全部或指定的科学数据清单 , 即科学数据标识等信息列表 。

  获取清单的具体流程如下 。

  a) 科学数据收割方根据 5. 2 中获得的连接信息 , 向科学数据被收割方发出获得科学数据标识列表的请求 。请求可分为对全部科学数据清单的请求和对某个时间后更新的科学数据清 单 的请求 。

  b) 科学数据被收割方解析请求后 ,应组织科学数据标识列表 ,作为可收割科学数据清单 ,封装成规范的报文后 ,发送给科学数据收割方 。

  c) 科学数据收割方收到返回的科学数据标识列表后 ,应对报文进行解析 ,记录或更新解析后的科学数据标识列表信息 ;对于更新的科学数据清单 ,建议对收割的不同版本进行记录 。

  5.4 元数据收割

  由科学数据收割方向科学数据被收割方发起 ,获得科学数据被收割方可被收割的全部科学数据元数据信息或指定的部分科学数据元数据信息 。

  元数据收割的具体流程如下 。

  a) 科学数据收割方向科学数据被收割方发出获得科学数据元数据的请求 。选择性的元数据收割应建立拟收割的科学数据元数据对应的科学数据标识列表 , 以科学数据标识作为请求参数 ,逐个发出元数据收割请求 。

  b) 科学数据被收割方接收到收割请求后 ,应对请求进行解析 ,对元数据信息等按照规范或双方协议的结构和格式进行转换 ,并封装成规范的报文形式 ,返回给科学数据收割方 。对于体量较大的元数据信息 ,可对元数据信息进行分组传输 。

  c) 科学数据收割方获得请求的返回报文后 ,应对报文进行完整性校验 ,确认该信息或信息组接收完成后 ,发送完成信息至科学数据被收割方 。

  d) 科学数据被收割方根据反馈信息决定是否重传 、续传或已完成传输 。

  5.5 数据实体收割

  由科学数据收割方向科学数据被收割方发起 ,获得某个科学数据标识或某个科学数据实体访问地址列表所对应的全部科学数据实体 。

  数据实体收割的具体流程如下 :

  5

  GB/T 46411—2025

  a) 科学数据收割方可以某个科学数据标识为参数 , 向科学数据被收割方发出科学数据实体收割的请求 ;

  b) 科学数据被收割方接收到请求后 ,应为相应的科学数据实体建立可获取的访问环境和访问地址,将科学数据实体访问地址(列表)返回至科学数据收割方 ;

  c) 科学数据收割方应建立科学数据实体访问地址列表 ,对列表进行遍历 ,逐个地址进行数据实体的获取 ;

  d) 对于收割到的科学数据实体 ,科学数据收割方应重新建立数据实体与科学数据标识 、科学数据元数据之间的关联关系 。

  6 实现要求

  6. 1 传输协议

  科学数据元数据收割应采用基于超文本安全传输协议(HTTPS) 或超文本传输协议(HTTP) 的网络服务 。

  科学数据实体收割应采用通用的数据传输协议,宜采用文件传输协议(FTP)、HTTPS协议。

  数据传输时应采用安全性管理措施 。传输协议应采用基于 X. 5091) 的密钥证书 , 可采用安全白名单 、一次性秘钥等形式对数据传输予以保护 。

  6.2 收割操作

  科学数据收割操作应包括建立连接 、获取清单 、获取元数据类型 、元数据收割 、数据实体收割等 。科学数据被收割方根据实际情况 ,可不支持数据实体收割 。科学数据收割操作接口具体信息见附录 B。

  科学数据被收割方和科学数据收割方可在协议一致后 ,扩展和 自定义新的科学数据收割操作 。接口名称宜采用小驼峰命名法2) 。

  所有接口请求类型应为 GET或 POST3) 。

  科学数据收割方发出的所有对收割内容的操作 ,接口请求头参数中都需要包含身份认证信息 ,例如通过令牌(token)及其有效期来实现 。

  6.3 其他要求

  科学数据被收割方应对可提供的科学数据收割服务在一定范围内予以公开或注册 ;其科学数据管理能力应符合国家相关管理要求 。

  科学数据收割方利用收割的数据提供科学数据服务时 ,应遵守科学数据被收割方要求的数据政策与许可协议 ,不应擅自更改共享范围和许可协议 ,再分发时应明确标识数据来源和许可协议等 。

  1) X. 509是一种密码学中的公钥证书格式标准 ,X. 509证书是代 表 用 户 、计 算 机 、服 务 或 设 备 的 数 字 文 档 ,通 常 包括证书使用者信息 、与使用者私钥相对应的公钥 、证书颁发机构信息 、支持的加密算法 、证书有效性信息等 。

  2) 小驼峰命名法 :软件编程中对编程对象的一种命名规则 ,名称由一个或多个单词连接而成 ,单词间不设分隔符 ,第一个单词的所有字母均为小写 ,从第二个单词开始之后的每个单词的首 字 母 大 写 、其 余 字 母 均 为 小 写 ,例 如getMetadataById。

  3) GET和 POST是 HTTP协议的两种请求方法,分别用于从服务器获取数据和向服务器传递数据。

  6

  GB/T 46411—2025

  附 录 A

  (资料性)

  科学数据收割请求及返回结果示例

  A. 1 建立连接示例

  connect请求的请求头参数示例 。

  示例 1:

  {

  "secretKey": "2llqrMBjUwxRSNPbVsXXXX" }

  JSON格式和 XML格式的返回结果分别见示例 2、示例 3。

  示例 2:

  {

  "ticket": {

  "token": "61W3mEpU66027wgNZ_XXXX",

  "expires": 7200

  } ,

  "serviceList": [

  {

  "name": "GetDataByID",

  "url": "/fair/dataset/publish",

  "version": "1. 0"

  }

  ]

  }

  示例 3:

  < response>

  61W3mEpU66027wgNZ_XXXX

  < expires>7200

  < serviceList>

  < service name= "GetDataByID" url= "/fair/dataset/publish" version= "1. 0" />

  A.2 获取清单示例

  listIdentifiers请求 JSON格式和 XML格式的返回结果分别见示例 1 和示例 2。

  示例 1:

  [

  {

  "id": "https://cstr.cn/39999.11. casdc.cJ8Jiu6N",

  "updateDate": "2021-11-25",

  7

  GB/T 46411—2025

  "url": "http://instdb. casdc.cn/dataDetails/7f964140ea3e4775995e0cd836a729b1"

  }

  ]

  示例 2:

  < response>

  https://cstr.cn/39999.11. casdc.cJ8Jiu6N

  < updateDate>2021-11-25

  http://instdb. casdc.cn/dataDetails/7f964140ea3e4775995e0cd836a729b1

  A.3 获取元数据类型示例

  getMetadataType请求 JSON格式和 XML格式的返回结果示例分别见示例 1、示例 2。示例 1:

  [

  {

  "name": "dc",

  "url": "https://www. dublincore.org/schemas/xmls/qdc/2008/02/11/dc.xsd"

  } ,

  ]

  示例 2:

  < response>

  < mdType meataName="casdc"url="https://www. casdc.cn/md"/>

  A.4 元数据收割示例

  getMetadataByID请求的请求参数示例见示例 1。

  示例 1:

  {

  "id": "https://cstr.cn/39999.11. casdc.1grdUXO8",

  "metaType": "casdc"

  }

  JSON格式和 XML格式的返回结果分别见示例 2、示例 3。

  示例 2:

  {

  "context":"http://casdc.cn/md/",

  "identifier": [

  {

  "type": "CSTR",

  "id": "https://cstr.cn/39999.11. casdc.1grdUXO8"

  }

  ] ,

  "subject": [

  8

  GB/T 46411—2025

  {

  "name": "信息技术系统性应用其他学科 ",

  "schema": "GB/T 13745-2009",

  "code": "4133099"

  }

  ] ,

  "publisher": "XX科学数据中心 ",

  "fileNumber": 15,

  "byteSize": 465437484860,

  "fundingReferences": [

  {

  "type": "国家重点研发计划 ",

  "id": "YFF1234567",

  "name": "具体项目名称 "

  }

  ] ,

  "accessRights": "http://purl.org/coar/access_right/c_abf2",

  "resourceType": "Dataset",

  "privacyProtection": "yes",

  "originalStatement": "yes",

  "version": "V1",

  "url": "http://instdb. casdc.cn/dataDetails/f5aeac252bbc4709bfbda00653fc1cb2",

  "keywords": [ "家居电视场景 ", "多场景 ", "多通道 ", "音视频唤醒词识别 "] ,

  "datePublished": "2023-04-23T14:04:40+08:00",

  "sensitiveContent": "yes",

  "license": "https://creativecommons.org/licenses/by/4.0/",

  "description": "MISP2021挑战赛音视频唤醒词识别(AVWWS)数据库涵盖了近场 、中场和远场麦克风阵列以及超清相机收集的音频和视频数据 , 以创建一个共享的 、公开可用的唤醒词识别数据库 。唤醒词是 “小 T小 T”。如果包含唤醒词 ,则样本将被视为正样本 ;否则 ,它将被视为负样本 。对于每个样本 ,最多包含一个唤醒词 。数据分为三个子集 :训练集 、验证集和评估集 。为了方便数据传输 ,我们对音频和视频数据进行了打包和压缩 ,并根据内容分别命名。您可以通过提取下载的 zip压 缩 文 件 来 准 备 数 据 目 录。有 关 目 录 结 构 的 更 多 信 息,请 参 阅 https://mis- pchallenge.github. io/mispchallenge2021/task1_data.html.",

  "author": [

  {

  "name": "作者名 ",

  "worksFor": "中国科学技术大学 ",

  "email": "abc@ ustc.edu. cn"

  }

  ] ,

  "title": "MISP2021挑战赛音视频唤醒词识别(AVWWS)数据库 " }

  示例 3:

  xmlns:casdc= http://casdc.cn/md/ xsi:schemaLocation= http://casdc.cn/md/http://casdc.cn/md/ > http://casdc.cn/md

  9

  GB/T 46411—2025

  CSTR

  https://cstr.cn/39999.11. casdc.1grdUXO8

  < subject>

  信息技术系统性应用其他学科

  < schema>GB/T 13745-2009

  < code>4133099

  中国科学院科学数据总中心

  15

  465437484860

  国家重点研发计划

  YFF1234567

  具体项目名称

  http://purl.org/coar/access_right/c_abf2

  < resourceType>Dataset

  yes

  yes

  V1

  http://instdb. casdc.cn/dataDetails/f5aeac252bbc4709bfbda00653fc1cb2

  家居电视场景

  多场景

  多通道

  音视频唤醒词识别

  2023-04-23T14:04:40+08:00

  < sensitiveContent>yes

  https://creativecommons.org/licenses/by/4.0/

  MISP2021挑战赛音视频唤醒词识别(AVWWS)数据库涵盖了近场 、中 场 和 远 场 麦 克 风 阵 列 以 及 超清相机收集的音频和视频数据 , 以创建一个共享的 、公开可用的唤醒词识别数据库 。唤醒词是 “小 T小 T”。如果包含唤醒词 ,则样本将被视为正样本 ;否则 ,它将被视为负样本 。对于每个样本 ,最多包含一个唤醒词 。数据分为三个子集 :训练集 、验证集和评估集 。为了方便数据传输 ,我们对音频和视频数据进行了打包和压缩 ,并根据内容分别命名。您可以通过提取下载的 zip压缩 文 件 来 准 备 数 据 目 录。有 关 目 录 结 构 的 更 多 信 息,请 参 阅 https://mispchal- lenge.github. io/mispchallenge2021/task1_data.html.

  作者名

  中国科学技术大学

  < email>abc@ ustc.edu. cn

  A.5 数据实体收割示例

  getDataByID请求的请求参数示例见示例 1。

  10

  GB/T 46411—2025

  示例 1:

  {

  "id": "10. 57841/casdc.0003289" }

  JSON格式和 XML格式的返回结果分别见示例 2、示例 3。

  示例 2:

  [

  {

  "url":"http://instdb. casdc.cn/api/resources/resourcesDownloadFile? fileId=658973d2f78de941d4712ca7

  checksum": "2162760fa44be172780211e9fc85cc9b"

  &resource"(s)Id= bbfa413ffddd411d893dcaf8402b13ef",

  } ,

  {

  checksum": "c04bc4a610e2b7d8a5e01035fc9e0112"

  &resourceId(ur):bbfa41("http):3(/)ffd(/i)d(n)d41(stdb)1.d(c)8(a)93(sd)cd.caf(cn/)8(a)4(p)02b(i/r)1(e)s3(o)ef(u)"(r)c,es/resourcesDownloadFile? fileId= 658973d2f78de941d4712ca6

  }

  ]

  示例 3:

  < entities>

  &resoucesId(entity)=ub(r)a413ff("http)d:dd41(//in)s1(t)d8(db)9.3(c)d(as)c(d)f8(c)402b1(n/api)3(/)e(re)fs"(o)uchecksum(rces/reso)"(c)216(esD)2(o)760(wnl)f(o)a44b(adFi)le(e)1?72780(fileI)2(d)1e(6)9(5)fc85(8973)c(d)c9(2)fb(7)/(d)e41d4712ca7 &resoucesId(entity)=ub(r)a413ff("http)d:dd41(//in)s1(t)d8(db)9.3(c)d(as)c(d)f8(c)402b1(n/api)3(/)e(re)f"(s)ocheck(urces/)sum(res)or"(c)c04bc4a6(esDownl)1(o)0(a)e(d)2b7d(File?)8a(fi)5(l)e(e)01(Id)3(6)5(5)fc9e0112(8973d2f)8/(d)941d4712ca6

  11

  GB/T 46411—2025

  附 录 B

  (资料性)

  科学数据收割接口

  B. 1 接口规则

  科学数据收割接 口 由接口名称 、接口参数 、返回码 、返回报文 4个部分组成 :

  a) 接口名称 :表达收割的具体功能 ;

  b) 接口参数 :表达数据收割的输入条件 ;

  c) 返回码 :表达数据收割的调用状态 ;

  d) 返回报文 :表达返回的科学数据记录的组成和结构 。

  返回码反映数据收割是否成功以及失败的原因,在遵照 HTTP返回状态码标准的基础上,结合收割场景进一步明确了错误原因的说明 ,具体代码和对应的说明见表 B. 1。

  表 B. 1 返回的状态码及说明

  状态码

  说明

  200

  请求资源成功

  400

  请求的语法错误

  401

  请求要求验证用户身份

  403

  服务器拒绝请求

  500

  服务器内部错误

  501

  缺少令牌参数

  502

  令牌过期

  503

  不合法的令牌

  504

  不支持的接口版本

  B.2 建立连接

  由科学数据收割方发出建立连接请求 ,获取收割操作接口调用的身份认证信息以及科学数据被收割方支持的全部收割操作接 口 。

  具体的接口请求头参数和返回参数见表 B. 2 和表 B. 3。

  表 B.2 建立连接接口请求参数

  接口名称

  connect

  请求头参数

  名称

  含义

  赋值类型

  使用说明

  必选/可选

  secretKey

  授权码

  字符串

  可线下获得

  必选

  12

  GB/T 46411—2025

  表 B.3 建立连接接口返回参数

  参数名

  含义

  参数类型

  使用说明

  ticket

  身份认证信息

  对象

  由授权码申请到的认证信息 ,该对象包含

  token、expires字段

  token

  令牌

  字符串

  ticket对象的成员参数

  expires

  令牌有效期

  整型

  单位为秒(s)

  serviceList

  接口服务列表

  数组

  支持的全部接口信息列表 ,数组中的对象

  应包含下列参数

  name

  接口名称

  字符串

  url

  接口地址

  字符串

  version

  接口版本

  字符串

  B.3 获取清单

  由科学数据收割方发出请求 ,获取科学数据被收割方可被收割的全部科学数据标识的列表 。具体的接口请求头参数和返回参数见表 B. 4 和表 B. 5。

  表 B.4 标识收割接口请求参数

  接口名称

  listIdentifiers

  请求头参数

  名称

  含义

  赋值类型

  使用说明

  必选/可选

  token

  令牌

  字符串

  有效期内使用

  必选

  version

  接口版本

  字符串

  针对有多个版本接口的情况 ,默认是最新版本

  可选

  表 B.5 标识收割接口返回参数

  参数名

  含义

  参数类型

  使用说明

  data

  数据集列表

  数组

  数组中的对象包含下列参数

  id

  科学数据标识

  字符串

  可解析的标识地址

  updateDate

  最后发布时间

  字符串

  格式 yyyy-mm-dd

  url

  下载访问地址

  字符串

  B.4 获取元数据类型

  由科学数据收割方发出请求 ,获取科学数据被收割方支持的元数据格式的列表 。

  具体的接口请求头参数和返回参数见表 B. 6 和表 B. 7。返回为空时 ,默认采用 GB/T 30523的元数据标准 。

  13

  GB/T 46411—2025

  表 B.6 获取元数据类型接口请求参数

  接口名称

  getMetadataType

  请求头参数

  名称

  含义

  赋值类型

  使用说明

  必选/可选

  token

  令牌

  字符串

  有效期内使用

  必选

  version

  接口版本

  字符串

  默认为最新版本

  可选

  表 B.7 获取元数据类型返回参数

  参数名

  含义

  参数类型

  使用说明

  mdType

  元数据类型列表

  数组

  数组中的对象包含下列参数

  name

  元数据类型名称

  字符串

  元数据类型名称

  url

  元数据模板地址

  字符串

  系统可理解的元数据模板格式

  B.5 元数据收割

  由科学数据收割方发出请求 ,获取指定科学数据标识所关联的科学数据元数据 。

  具体的接口请求参数和返回参数见表 B. 8 和表 B. 9。请求参数中的科学数据标识不为空时 ,返回为只有 1个元数据对 象 的 列 表 ; 为 空 时 , 为 全 部 元 数 据 对 象 的 列 表 。 元 数 据 报 文 封 装 组 织 形 式 要 求 见4. 2. 2。

  表 B. 8 元数据收割接口请求参数

  接口名称

  getMetadataByID

  请求头参数

  名称

  含义

  赋值类型

  使用说明

  必选/可选

  token

  令牌

  字符串

  有效期内使用

  必选

  version

  接口版本

  字符串

  默认为最新版本

  可选

  请求参数

  id

  科学数据标识

  字符串

  该字段为空时 ,默认获取全量元数据

  必选

  metaType

  元数据类型

  字符串

  由获取元数据类型接 口

  得到的元数据类型名称

  字段 ,不能为空

  必选

  表 B.9 元数据收割接口返回参数

  参数名

  含义

  参数类型

  使用说明

  data

  元数据列表

  对象

  报文格式要求见 4. 2. 2

  B.6 数据实体收割

  由科学数据收割方发出请求 ,获取指定科学数据标识所关联的科学数据实体 。科学数据被收割方应为科学数据实体提供可访问的环境和地址,并提供基于通用传输协议的传输服务 。

  14

  GB/T 46411—2025

  具体的接口请求参数和返回参数见表 B. 10和表 B. 11。

  表 B. 10 数据实体收割接口请求参数

  接口名称

  getDataByID

  请求头参数

  名称

  含义

  赋值类型

  使用说明

  必选/可选

  token

  令牌

  字符串

  有效期内使用

  必选

  version

  接口版本

  字符串

  默认为最新版本

  可选

  请求参数

  id

  科学数据标识

  字符串

  不能为空

  必选

  表 B. 11 数据实体收割接口返回参数

  参数名

  含义

  参数类型

  使用说明

  entities

  数据实体地址列表

  数组

  数组中的对象包含下列参数

  url

  数据获取地址

  字符串

  支持 HTTPS、FTP等通用协议

  checksum

  校验码

  字符串

  校验数据完整性

  15

  GB/T 46411—2025

  参 考 文 献

  [1] GB/T 18391. 1—2009 信息技术 元数据注册系统(MDR) 第 1部分 :框架

  [2] GB/T 39912—2021 科技计划形成的科学数据汇交 技术与管理规范

  [3] GB/T 43708—2025 科学数据安全要求通则

  [4] RFC2616 HypertextTransferProtocol—HTTP/1.1

  [5] RFC 5280 InternetX. 509 Public Key Infrastructure Certificate and Certificate Revocation List(CRL) Profile

  [6] 科学数据管理办法(国办发〔2018〕17号)

  [7] 中国科学院科学数据管理与开放共享办法(试行)(科发办字〔2019〕11号)

  [8] The Open ArchivesInitiativeProtocolforMetadata Harvesting[2024-09-15] https://www.open- archives.org/OAI/2.0/openarchivesprotocol.htm.

  [9] Downs, R. R. , Díaz, A. U. , Xu, Q. , et al. Harvestable Metadata Services Development: Analysis of Use Cases from the World Data System [J] . Data Science Journal, 2023, 22(1) : 20. https://doi.org/10.5334/dsj-2023-020.

  16

29139284429
下载排行 | 下载帮助 | 下载声明 | 信息反馈 | 网站地图  360book | 联系我们谢谢