2014年,Netflix公开发布了一个包含近50万用户、数千万评分数据的匿名数据集,供研究人员优化推荐算法。数据中删除了用户真实姓名,只保留匿名ID和评分时间等信息,看似保障了隐私。
然而,斯坦福大学的Narayanan和Shmatikov两位教授进行深入研究,结合IMDb网站上公开的用户影评数据,发现很多用户在IMDb上留下的评分时间和影片信息与Netflix数据极为相似。通过匹配这些“时间戳”和“影片标签”,他们成功将Netflix中的匿名用户还原为真实IMDb用户,甚至进一步确定了部分用户的真实身份。
这一研究揭示了一个关键风险:匿名数据如果与其他公开数据结合,就极易被重新识别。用户在不同平台的行为轨迹如时间戳、兴趣偏好等细节成为识别的“指纹”,匿名保护形同虚设。Netflix事件也推动了数据隐私保护领域的深刻反思和法规制定。
二、地图热力图引发军营暴露危机:Strava事件解析
2018年,健身应用Strava发布了一张覆盖全球的用户运动热力图,旨在展示全球跑步和骑行活动的密度分布。热力图使用了数亿条匿名GPS轨迹数据,按地理位置亮度显示运动频率。
出乎意料的是,这张地图意外揭露了许多秘密军营和军事基地 線上商店 的内部运动路径,特别是在阿富汗、叙利亚等地的美军基地。高亮区域显示了士兵的跑步路线、巡逻轨迹,甚至隐约显现出军用车辆的活动路径。
更有分析人员将Strava热力图与卫星影像、公开军事资料结合,推断出具体部队位置和行动规律。此事件在军事安全领域引起轩然大波,促使相关军方紧急重新审查数据共享策略。
Strava事件证明,地理位置数据即使匿名,仍极易被逆向分析和识别。尤其是地理数据的敏感性,使匿名地图数据的安全风险更为突出。