信息安全工程师知识点:数据匿名化定义
数据匿名化所处理的原始数据,如医疗数据、统计数据等,一般为数据表形式:表中每一条记录(或每一行)对应个人,包含多个属性值。下面给出几个常见定义:
定义5-4原始数据集T:最原始待被公开发布的数据集合,设T{A1,A2, …,Am},其中Ai表示数据集的第i个属性,若T中含有n条记录,则每条记录表示为tj(1≤j≤n),tj[Ai]表示第j条记录中属性Ai对应的值。
定义5-5标识符Ⅰ:标识符是指可以用来唯一识别、关联到某特定个体的身份属性,是数据集T中的很小部分特殊属性,即如果T的标识符为I, 则存在I 属于I⊆{Ai|(1≤i≤m)}。例如姓名、身份证号等属性。
定义5-6准标识符QI:准标识符是指潜在的可以识别、关联到某特定个体身份的
一组属性集合,常同时存在于发布的数据表和外部数据表中。若T 的准标识符为QI, 则也存在QI⊆{Ai≤i≤m} 。例如性别、年龄、邮编、生日等属性集合。
定义5-7 敏感属性S: 敏感属性是指那些不希望被他人或非授权机构所知晓的信
息属性,是社会中个体普遍想要隐匿的信息。敏感属性集合表示为{S1,S2,...,Sn},其中S1为数据表T中的第i个属性,则有Si∈Ai|1≤i≤m} 。例如个体的疾病、婚史、薪水等信息。
定义5-8 等价组G:以准标识符为基础,寻找准标识符值完全相同的一定数量的记录,由这些记录组成的集合成为等价组,等价组的概念使得准标识符失去了识别、关联特定记录的能力。等价组表示为{tr1,tr2,...trn},其中tri表示数据集T的某一条记录,对于准标识符中的任何一个属性QIp,则等价组内记录间的关系可表示为tri[QIp]=trj[Qlp](i,j∈[ri,rc]且i≠j)。
例如,表5-6为一原始医疗数据,每一条记录对应一个唯一的病人,其中{ "姓名"}为标识符属性, {"肤色","年龄","性别","邮编"}为准标识符属性,{"疾病"}为敏感属性。
各省软考办 | ||||||||||