数据脱敏的安全风险评估

          当今时代数字化飞速进步,互联网资源共享加快相通,数据信息展现出范围大、流行快、种类多及其使用价值硬度低的特性。大家能够 极易地对各种数据信息完成收集、公布、储存与解析,殊不知要是含有脆弱数据的数据信息被hack获得将会导致个人隐私的明显泄露;因而在公布数据信息前,务必利用科学合理的个人隐私保护方式来掩藏脆弱数据,进而做到可以公布和解析与此同时又确保个人隐私数据安全性的目地。

outputo-20210828-085958-766-owhz.png

殊不知,现实中绝大多数数据脱敏方式(如假名化、标志符拦截)仍存有个人隐私隐患,历经这种脱敏处理后的数据信息历经公布后将会遭到一连串的攻击,包含重标志攻击、环境知识攻击、超链接攻击及其个人隐私逻辑推理攻击。为了更好地抵御上述某些攻击,K-匿名、等额的匿名是较为普遍的匿名解决方式,对其开展科学合理运用可以在数据统计分析时降低安全风险隐患现象产生。当中K-匿名优化算法具备通用性,归属于新式优化算法的一类,为了更好地抵御普遍的超链接攻击,较为合理的数据信息公布脱敏都是会选用K-匿名的方式对数据信息开展解决,但该方式对脆弱特性值的遍布未做别的现实限制,因而便会存有环境知识攻击及其单一化攻击。

为了更好地获得隐患小且数据损失率小的公布数据,需要公布脱敏数据以前要对其开展评定,若评定后的脱敏数据品质做到客户对数据价值要求与此同时hack难以盗取脆弱数据,那样就可以公布。这篇文章探讨的风险评价优化算法也是依据匿名化解决数据信息的风险评价,也适用别的脱敏优化算法。依据公布数据的信息不一样,数据存有的隐患也不一样;如何去量化分析的评定数据存有的隐患,就应当先向数据信息的脆弱等级开展1个科学合理的区划。领域早已有相应的标准,如《网络信息安全技术个人资料去标志化效果等级分类评定标准》(征求意见)中对数据信息脆弱等级界定了以下的区划标准:

个人资料标志度等级分类

图1范例数据信息(注:包含身份证件和联系电话等个人数据信息均为假数据信息,仅为范例目地)

数据存储结构以表的方式表明,每一行表明1条纪录(rack),每一行表明1个特性(attribute)。每一个纪录与1个特殊客户/个人关连。这种特性能够 分成4类:

标志符(explicitidentifiersattribute):能够 立即明确1个个人。如:身份证号码,名字等单独特性值。

准标志符(Quasi-identiflerattribute,QID):能够 和外界表联接来鉴别个人的最低特性集。如Fig1中的{年纪,性別,邮政编码}组成。

脆弱特性(Sensitiveattribute):客户不期望被别人了解的数据信息。如:联系电话、患得病症等。能够 觉得数据分析表中有使用价值的数据信息除开标志符和准标志符以外全部都是敏感数据。

非脆弱特性(Non-sensitiveattribute):能够 立即公布,无别的危险的数据信息,如编号。

等额的组(边界值):全部准标志符相匹配的值一样的数据信息区划到1个组。

依据上述的定义界定,依据K-匿名的脱敏处理就是要确保准标志符集的非独立性,即等额的组里最低的数量务必高于或等于K。

分享: