核心匿名化技术方法介绍
Posted: Thu May 29, 2025 10:20 am
哈希(Hashing)
原理:使用加密算法将标识符(如手机号)转化为不可逆的哈希值。
常见算法:MD5、SHA-256、HMAC(带密钥)
应用:伪匿名化中常用于替代手机号、设备ID、邮箱等。
注意:哈希值在弱加密或无盐值情况下容易被“暴力破解”或“字典攻击”。
2. 泛化(Generalization)
原理:将具体值转化为模 線上商店 糊区间或类别,降低再识别风险。
示例:
年龄:33 → 30-35
位置:GPS经纬度 → 城市名称
时间戳:2025-05-29 12:53 → 2025-05-29 上午
优点:可显著降低间接标识符的可识别性
3. 扰动(Perturbation)
原理:在原始数据上加入“噪声”,使其偏离真实值。
方法:
数值扰动:在真实数值上加减一个随机值(如温度 +1/-1)
位移扰动:对定位点进行一定距离的偏移
时间扰动:对事件发生时间做正负几分钟偏移
优点:保持整体统计特征,掩盖个体特征
原理:使用加密算法将标识符(如手机号)转化为不可逆的哈希值。
常见算法:MD5、SHA-256、HMAC(带密钥)
应用:伪匿名化中常用于替代手机号、设备ID、邮箱等。
注意:哈希值在弱加密或无盐值情况下容易被“暴力破解”或“字典攻击”。
2. 泛化(Generalization)
原理:将具体值转化为模 線上商店 糊区间或类别,降低再识别风险。
示例:
年龄:33 → 30-35
位置:GPS经纬度 → 城市名称
时间戳:2025-05-29 12:53 → 2025-05-29 上午
优点:可显著降低间接标识符的可识别性
3. 扰动(Perturbation)
原理:在原始数据上加入“噪声”,使其偏离真实值。
方法:
数值扰动:在真实数值上加减一个随机值(如温度 +1/-1)
位移扰动:对定位点进行一定距离的偏移
时间扰动:对事件发生时间做正负几分钟偏移
优点:保持整体统计特征,掩盖个体特征