GB/T 42460-2023 信息安全技术 个人信息去标识化效果评估指南
- 名 称:GB/T 42460-2023 信息安全技术 个人信息去标识化效果评估指南 - 下载地址1
- 下载地址:[下载地址1]
- 提 取 码:
- 浏览次数:3
发表评论
加入收藏夹
错误报告
目录| 新闻评论(共有 0 条评论) |
资料介绍
ICS 35 . 030 CCS L 80
中 华 人 民 共 和 国 国 家 标 准
GB/T 42460—2023
信息安全技术
个人信息去标识化效果评估指南
Information security technology—
Guide for evaluating the effectiveness of personal information de-identification
2023-03-17 发布 2023-10-01 实施
国家市场监督管理总局国家标准化管理委员会
发
布
GB/T 42460—2023
目 次
前言 I
引言 "
1 范围 1
2 规范性引用文件 1
3 术语和定义 1
4 个人信息去标识化效果分级 3
5 个人信息去标识化效果评估流程 3
6 评估实施 4
6 . 1 评估准备 4
6 . 2 定性评估 5
6 . 3 定量评估 5
6 . 4 形成评估结论 5
6 . 5 沟通与协商 5
6 . 6 评估过程文档管理 5
附录 A (资料性) 直接标识符示例 6
附录 B (资料性) 准标识符示例 7
附录 C (资料性) 准标识符识别 8
附录 D (资料性) 基于 K 匿名模型的去标识化效果评估示例 10
参考文献 15
GB/T 42460—2023
前 言
本文件按照 GB/T 1 . 1—2020《标准化工作导则 第 1 部分:标准化文件的结构和起草规则》的规定起草 。
请注意本文件的某些内容可能涉及专利 。本文件的发布机构不承担识别专利的责任 。
本文件由全国信息安全标准化技术委员会(SAC/TC260)提出并归口 。
本文件起草单位:清华大学 、中国电子技术标准化研究院 、北京大学 、绿盟科技集团股份有限公司 、上海三零卫士信息安全有限公司 、中国软件评测中心 、北京天融信网络安全技术有限公司 、蚂蚁科技集团股份有限公司 、阿里巴巴(北京)软件服务有限公司 、北京市政务信息安全保障中心 、深圳市腾讯计算机系统有限公司 、北京百度网讯科技有限公司 、中国人民银行数字货币研究所 。
本文件主要起草人:金涛 、王建民 、周晨炜 、谢安明 、张峰昌 、陈磊 、查海平 、赵亮 、王爽 、叶晓俊 、屈劲 、白晓媛 、李媛 、刘巍然 、刘俊河 、洪爵 、宋玲娓 。
I
GB/T 42460—2023
引 言
GB/T 35273 提出了个人信息去标识化的要求 , 明确了个人信息去标识化处理的环节和场景 , GB/T 37964 就如何开展个人信息去标识化活动给出了指导 。经去标识化处理后的个人信息并不能完全实现匿名化 , 仍存在重标识的风险 , 需结合应用场景进行去标识化效果评估 。
本文件旨在依据个人信息能多大程度上标识个人身份(即标识度)进行分级 , 用于评估个人信息去标识化活动的效果 。个人信息基于标识度分级 , 有利于个人信息分级别探讨适用场景和安全管理要求 , 更有利于个人信息的使用和保护 。根据国内外相关研究及实践成果 , 附录中给出了可供参考的计算方法和阈值推荐 。
"
GB/T 42460—2023
信息安全技术
个人信息去标识化效果评估指南
1 范围
本文件提供了个人信息去标识化效果分级与评估的指南 。
本文件适用于个人信息去标识化活动 , 也适用于开展个人信息安全管理 、监管和评估 。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款 。其中 , 注 日期的引用文件 , 仅该日期对应的版本适用于本文件;不注日期的引用文件 , 其最新版本(包括所有的修改单)适用于本文件 。
GB/T
25069—2022
信息安全技术
术语
GB/T
35273—2020
信息安全技术
个人信息安全规范
GB/T
37964—2019
信息安全技术
个人信息去标识化指南
3 术语和定义
GB/T 25069—2022 、GB/T 35273—2020 、GB/T 37964—2019 界定的以及下列术语和定义适用于本文件 。
3.1
个人信息 personal ,nformat,on
以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息 。
注 : 不包括匿名化处理后的信息 。
[来源: GB/T 35273—2020 , 3 . 1 , 有修改] 3.2
个人信息主体 personal ,nformat,on subject
个人信息所标识或者关联的自然人 。
[来源: GB/T 35273—2020 , 3 . 3] 3.3
去标识化 de-,dent,f,cat,on
通过对个人信息的技术处理 , 使其在不借助额外信息的情况下 , 无法识别或者关联个人信息主体的过程 。
[来源: GB/T 35273—2020 , 3 . 15] 3.4
微数据 m,crodata
一个结构化数据集 , 其中每条(行)记录对应一个个人信息主体 , 记录中的每个字段(列)对应一个属性 。
[来源: GB/T 37964—2019 , 3 . 4]
1
GB/T 42460—2023
3.5
标识符 ,dent,f,er
微数据中的一个或多个属性 , 可以实现对个人信息主体的唯一识别 。
注 : 标识符分为直接标识符和准标识符 。
[来源: GB/T 37964—2019 , 3 . 6] 3.6
直接标识符 d,rect ,dent,f,er
微数据中的属性 , 在特定环境下可以单独识别个人信息主体 。
注 : 常见的直接标识符见附录 A。
[来源: GB/T 37964—2019 , 3 . 7] 3.7
准标识符 quas,-,dent,f,er
微数据中的属性 , 结合其他属性可唯一识别个人信息主体 。
注 : 常见的准标识符见附录 B, 准标识符的识别见附录 C。
[来源: GB/T 37964—2019 , 3 . 8] 3.8
重标识 re-,dent,f,cat,on
把去标识化的数据集重新关联到原始个人信息主体或一组个人信息主体的过程 。
[来源: GB/T 37964—2019 , 3 . 9] 3.9
完全公开共享 completely publ,c shar,ng
数据一旦发布 , 很难召回 , 一般通过互联网直接公开发布 。
[来源: GB/T 37964—2019 , 3 . 12]
3 . 10
受控公开共享 controlled publ,c shar,ng
通过数据使用协议对数据的使用进行约束 。
[来源: GB/T 37964—2019 , 3 . 13]
3 . 1 1
领地公开共享 enclave publ,c shar,ng
在物理或者虚拟的所辖范围内共享 , 数据不能流出到领地范围外 。
[来源: GB/T 37964—2019 , 3 . 14]
3 . 12
重标识风险 re-,dent,f,cat,on r,sk
标识度 ,dent,f,ab,l,ty
从数据中能识别出个人信息主体的概率 。
3 . 13
等价类 equ,valence class
微数据中所有准标识符属性值相同的记录行的集合 。
3 . 14
可接受风险阈值 acceptable r,sk threshold
设定的重标识风险临界数值 。
注 : 当重标识风险大于该数值时 , 就需要采取缓解措施(包括去标识化处理)和应急措施 , 实现风险在可控范围内 。
2
GB/T 42460—2023
4 个人信息去标识化效果分级
基于数据是否能直接识别个人信息主体,或能以多大概率识别个人信息主体,个人信息标识度分级划分为 4 级,详见表 1,用于区分个人信息去标识化效果 。
表 1 个人信息标识度 4 级划分
分级
划分依据
1 级
包含直接标识符,在特定环境下能直接识别个人信息主体
2 级
消除了直接标识符,但包含准标识符,且重标识风险高于或等于可接受风险阈值
3 级
消除了直接标识符,但包含准标识符,且重标识风险低于可接受风险阈值
4 级
不包含任何标识符
5 个人信息去标识化效果评估流程
个人信息去标识化效果评估流程见图 1,包括以下内容 :
a) 评估准备 ;
b) 定性评估 ;
c) 定量评估 ;
d) 形成评估结论 。
沟通与协商和评估过程文档管理贯穿于整个评估过程 。
3
GB/T 42460—2023
图 1 个人信息去标识化效果评估流程
6 评估实施
6 . 1 评估准备
评估准备工作包括以下内容。
a) 确定待评估的数据集。
b) 确定数据集使用的环境,包括业务场景 、组织 、人员 、系统 、已有其他数据等。
c) 组建评估团队,包括个人信息保护合规专家 、去标识化技术专家 、相关业务专家等。
d) 开展前期调研,包括数据使用环境的详细调研。
e) 确定评估依据,包括相关的法律法规标准等。
f) 确定重标识风险计算方案及可接受风险阈值 :
1) 重标识风险计算方案同时考虑数据集及其使用的环境,可基于 K 匿名模型或是基于差分隐私模型等 ;
2) 可接受风险阈值符合相应安全要求,并符合应用需要。
4
GB/T 42460—2023
g) 制定评估方案 。
6 . 2 定性评估
定性评估包括:
a) 按照 GB/T 37964—2019 中 5 . 3 识别标识符 , 并形成标识符清单(包括直接标识符和准标识符) ;
b) 判断数据集是否包含标识符清单中的标识符 , 如果不包含任何标识符 , 评为 4 级 , 评估结束 , 否则继续 ;
c) 判断数据集是否消除了标识符清单中的直接标识符 , 如果含有清单中的直接标识符 , 评为 1级 , 评估结束 , 否则进一步进行定量评估 。
6 . 3 定量评估
定量评估包括:
a) 定量计算重标识风险 , 按照 6 . 1 f)确定的重标识风险计算方案进行重标识风险计算 ;
b) 比较计算得到的重标识风险结果与可接受风险阈值 , 如果重标识风险结果小于可接受风险阈值 , 评为 3 级 , 否则评为 2 级 , 评估结束 。
基于 K 匿名模型的重标识风险计算方案及评估示例见附录 D。
6 . 4 形成评估结论
形成评估结论包括:
a) 结合定性评估与定量评估结果 , 形成去标识化效果分级结论 ;
b) 结论获得管理层批准 。
6 . 5 沟通与协商
在评估过程中与相关方(包括数据提供方 、数据接收方等)保持沟通并对沟通内容予以记录 , 包括:
a) 数据共享目的和数据共享环境的理解确认 ;
b) 重大的数据环境变更通知机制的建立 ;
c) 关于重标识风险度量的相互交流信息和意见 ;
d) 相关方已表达的对重标识风险的意见 ;
e) 定期/不定期重新评估的计划 。
6 . 6 评估过程文档管理
评估过程文档管理包括以下内容 。
a) 评估过程文档包括评估过程中依据 、参考和产生的过程文档与结果文档 , 包括但不限于:
1) 评估方案:包括待评估数据集 、数据使用的环境 、评估人员 、评估方法 、评估结果的形成和实施进度等 ;
2) 标识符识别报告:标识符识别的过程及结果 ;
3) 重标识风险计算方案:重标识风险计算方案及重标识风险可接受阈值的确定过程及结果 ;
4) 评估报告:包含定性评估和定量评估的过程及结果结论 ;
5) 评估记录:评估过程中的各种记录 , 包括沟通与协商的记录等 。
b) 文档的管理包括标识 、存储 、保护 、检索以及处置分发等 。
5
GB/T 42460—2023
附 录 A
(资料性)
直接标识符示例
任何在特定环境下可唯一识别个人的识别号码 、特征或代码等属于直接标识符,常见的直接标识符包括但不限于 :
a) 姓名 ;
b) 公民身份号码 ;
c) 护照号 ;
d) 驾驶证号 ;
e) 详细住址 ;
f) 电子邮件地址 ;
g) 电话号码(包括手机号和固定电话号码) ;
h) 传真号码 ;
i) 银行账户 ;
j) 车辆标识符和序列号(包括车牌号) ;
k) 社会保障号码 ;
l) 健康卡号码 ;
m) 病历号码 ;
n) 设备标识符和序列号 ;
。) 生物识别码(包括指纹和声纹等识别码) ;
p) 全脸图片图像和其他任何可比对的图像 ;
q) 账号 、证书号或许可证号 ;
r) 互联网协议(IP)地址 。
6
GB/T 42460—2023
附 录 B (资料性)
准标识符示例
任何在相应环境下无法单独唯一识别个人信息主体,但结合其他信息可唯一识别个人信息主体的属性属于准标识符,常见的准标识符包括但不限于 :
a) 性别 ;
b) 出生日期或年龄 ;
c) 事件日期(例如入院 、手术 、出院 、访问相关日期) ;
d) 地理范围(例如邮政编码 、建筑名称 、地区) ;
e) 族裔血统 ;
f) 国籍 、籍贯 ;
g) 语言 ;
h) 原住民身份 ;
i) 可见的少数民族地位 ;
j) 职务 、工作单位 、部门等职业信息 ;
k) 婚姻状况 ;
l) 受教育水平 ;
m) 上学年限 ;
n) 总收入 ;
。) 宗教信仰 。
7
GB/T 42460—2023
附 录 C (资料性)
准标识符识别
C. 1 识别准标识符的考量
准标识符是微数据中的属性 , 结合其他属性可唯一识别个人信息主体 。通常 , 准标识符中的信息可被个人信息主体的熟人所了解 , 或者存在于某类数据库中 。
通常存在一些比较简化的操作方法识别准标识符 。 例如:将除去直接标识符之外剩余的其他属性都作为准标识符 。 这种方法没有考虑属性被数据接收者和其他背景知识(其他外部数据资源)结合进行关联攻击的可能性 , 可能会形成过多的准标识符 。 如果应用 K 匿名方法进行处理 , 可能造成大量的信息丢失 , 致使去标识化后的数据无法支持原定的应用 目 的 。 另一种方法是比较有限的考虑关联攻击可能性 , 例如 , 只有在公开数据集中会出现的属性作为准标识符 。 这种方法因为对数据接收者或者攻击者可能具备的额外背景知识判断不充分 , 可能引起较高的重标识个人信息主体的风险 。 因此 , 识别准标识符的过程需要同时考虑到数据本身的特征和数据使用的环境(应用 目 的 、接收者以及背景知识等) 。
C. 2 识别准标识符的方法
准标识符识别的过程从直接标识符识别之后开始 , 首先针对数据本身的特征进行初步识别 , 然后对数据使用的环境因素进行分析 , 进一步筛选最终的准标识符 。
a) 利用已有知识快速识别准标识符:通过和公认的常见准标识符进行对比 , 快速识别候选准标识符 。 常见准标识符示例见附录 B。
b) 通过属性相关性进一步识别准标识符:在目标数据集的属性中 , 识别相关度较高的属性 。例如在出生注册信息库中 , 婴儿出生日期和出院日期是高度相关的 , 而出生日期是公认的常见准标识符 , 因此与其高度相关的出院日期也通常被认定为准标识符 。又例如:用药和疾病诊断之间也存在高度相关性 , 如果其中任何一个属性被认定为准标识符 , 则另一个通常同样被识别为准标识符 。
c) 基于重标识风险筛选准标识符:属性取值的重标识风险可被用来进一步筛选准标识符 。对于每一个属性可计算其取值的独特性 , 独特性高的属性 , 其重标识风险较高 。也可考虑属性是否作为准标识符对于整体数据集的等价类数量的影响 , 影响较大的属性 , 例如:作为准标识符后 , 等价类的数量相对于其不作为准标识符有很大程度的增加 , 则该属性需要考虑被识别为准标识符 。
d) 基于环境风险筛选准标识符:在确定环境风险对准标识符识别的影响时需要同时从拥有更多背景知识(背景数据)的现状和获得能力以及数据接收者对数据理解和分析能力的角度进行分析 。
1) 拥有较多个人信息的企业或者机构 , 例如保险公司(个人医疗保险) 、医院 、电商平台等 , 通常同时具有较强的个人数据获得能力 。 因此 , 通常将此类机构利用背景知识进行关联重标识的可能性设定为“高”。对于药品或者医疗器械公司 , 其获取的个人信息背景信息可能非常有限 , 所以进行关联性重标识的可能性可设定为“ 中”或者“低”(取决于具体的案例需求) 。
2) 拥有较强的数据理解能力和分析处理能力的数据接收者 , 进行重标识的风险较高 。 相
8
GB/T 42460—2023
反,若利用其进行重标识所要求的知识和能力超过了数据接收者的知识和能力范围,则重标识风险较低 。
3) 通过对环境风险的评估,利用背景信息进行重标识的发生概率低的属性通常不识别为准标识符,概率高的通常识别为准标识符 。
9
GB/T 42460—2023
附 录 D
(资料性)
基于 K 匿名模型的去标识化效果评估示例
D. 1 基于 K 匿名模型的重标识风险计算
D. 1 . 1 总体方案
基于 K 匿名模型的重标识风险计算是综合考虑数据和环境因素的计算过程 。先计算数据集每行记录 、整个数据集的重标识风险,进而计算环境重标识攻击概率,最后再结合环境重标识攻击概率计算整个数据集的重标识总体风险 。
D. 1 . 2 计算每行记录重标识风险
每行记录重标识风险计算步骤如下 :
a) 确定等价类集合 J 及每个等价类大小fj ,其中 j ∈J;
b) 一个等价类内所有记录的重标识风险是相同的,按式(D. 1)计算给定记录行所在等价类重标识风险,即为给定记录行重标识风险 。
……………………( D. 1 )
式中 :
θ j — 等价类重标识风险 ;
fj— 等价类的大小 。
D. 1 . 3 计算数据集重标识风险
按式(D. 2)和或(D. 3)可计算两种常用的数据集风险度量指标 。
Rb j ……………………( D. 2 )
式中 :
Rb — 等价类重标识风险最大值 ;
θ j — 等价类重标识风险 ;
J — 等价类集合 。
RC j ……………………( D. 3 )
式中 :
RC — 等价类重标识风险平均值 ;
θ j — 等价类重标识风险 ;
J — 等价类集合 ;
J — 等价类数目 。
D. 1 . 4 计算环境重标识攻击概率
环境重标识攻击概率计算有以下两种情况 。
a) 完全公开共享数据发布,攻击者对数据集进行重标识攻击的概率为 pr(Context) =1 。
10
相关推荐
- GB/T 18856.4-2008 水煤浆试验方法 第4部分:表观粘度测定
- GB∕T 41038-2021 气流床水煤浆气化能效计算方法
- GB/T 44846-2024 塑料齿轮承载能力计算
- GB/T 37618-2019 渗氮钢
- GB/T 37490-2019 项目、项目群和项目组合管理 项目组合管理指南
- GB∕T 21414-2021 轨道交通 机车车辆 电气隐患防护的规定
- GB/T 43456-2023 用电检查规范
- GB/T 20173-2013 石油天然气工业 管道输送系统 管道阀门
- GB/T 17626.2-2018 电磁兼容 试验和测量技术 静电放电抗扰度试验
- GB/T 35610-2024 绿色产品评价 陶瓷砖(板)

