信息安全工程师知识点:k-匿名
定义5-9 k- 匿名:原始数据表为T{A1,A2,...,An},设匿名化后数据表为RT{A1,A2,…,An},QIRT是与其对应的准标识符,称数据表RT满足k-匿名,如果RT[QIRT] 中的每个序列值在RT[QIRT] 中至少出现k次(k>1)。数据表RT中具有相同准标识符的若干记录称为一个等价类,即k-匿名实现了同一等价类内记录之间无法区分(敏感属性值除外),如表5-7是表5-6的2-匿名化表。
k-匿名通常可以防止敏感属性值的泄露,因为每个个体身份被准确标识的概率最大为1/k 。然币,数据表在匿名化过程中并未对敏感属性做任何约束,这也可能带来隐私泄露。如同一等价类内敏感属性值较为集中,甚至完全相同(可能形式上,也可能语义上),这样即使满足k-匿名要求,也很容易推理出与指定个体相应的敏感属性值。除此之外,攻击者也可以通过自己掌握的足够的相关背景知识以很高的概率来确定敏感数据与个体的对应关系,从而导致隐私泄露。因此,k-匿名容易受到同质性攻击(Homogeneity Attack)和背景知识攻击(Background Knowledge Attack)。表5-8 列出了几种常见的针对匿名化模型的攻击方式。
各省软考办 | ||||||||||