医疗保健信息、税务记录、信用评级和上网浏览历史,按理说存储在数据集中这些关于你的个人数据都应该是匿名的。不过本周二发表在Nature Communications上的一篇论文显示,在这些数据集中识别出某个人的信息数据要比你想象中的更加容易轻松。
由伦敦帝国理工学院和鲁汶大学的研究人员组成的团队仅仅利用15个人口统计学特征和一些机器学习,就能让99.98%的美国人在任何数据集中被正确的重新识别。研究人员表示,他们的工作表明重新识别是一个真正的风险,并质疑当前的实践是否符合现代数据保护法,如欧洲的通用数据保护法规和加州消费者隐私法案。
研究人员培训机器学习的数据来自于美国美国人口普查局在内的五个来源,共计210个不同的数据集,覆盖1100万美国人口。那么如何快速从匿名数据中识别发现?伦敦帝国理工学院的计算隐私小组还创建了一个工具,用于检查您在匿名数据集中正确重新识别的可能性。