Project Summary of Master's Final Project

硕士研究生毕设项目介绍。

人口普查数据合成

背景

对于人口普查数据,因其包含众多隐私数据,而无法直接公开。但其往往存在重要的可分析内容。我们想要通过设计一种生成模型,利用原始数据,合成相同记录和字段的合成数据,该合成数据应该具有和原始数据相似的数据可用性,并显著降低了隐私暴露风险。

模型介绍

生成模型使用的生成对抗网络(GAN)模型。基本原理是对GAN的两大部分Generator和Discriminator进行对抗性训练。其中Generator的输入为random noise vector,输出为合成的数据或fake sample。Discriminator的输入为原始数据或real sample, 输出为真或假的二分类。训练过程中Discriminator不断加强其判别真假输入的能力,而Generator不断加强其生成和真实数据类似的数据的能力。

数据处理

人口普查数据的字段类型主要分为连续性和离散型,连续性进行standardization,离散型进行one-hot,并对两类数据组合在一起进行PCA。相应的合成数据的版本需要经过后处理之后才能形成和原始数据字段含义一致的数据。

合成数据评价

评价分为两部分,数据可用性和隐私暴露风险。

数据可用性

简单评价包括每个字段的边缘概率分布的对比。

General可用性,使用简单二分类器对原始数据和合成数据进行二分类,分类效果较差说明可用性较好。

Specific可用性,选取一些字段和一个目标字段进行回归分析,如果回归分析在原始数据和合成数据中取得的参数相似,说明可用性较好。

隐私暴露风险

人为定义两类字段,public字段和private字段。将public字段作为key,在原始数据集和合成数据集中进行搜索相应的private字段,如果原始数据中的private字段在合成数据中完整的出现,说明隐私暴露风险高,如果并非完整出现,而是有所不同,说明隐私暴露风险低。

数据集

数据规模为将近十万,字段数为10个,预处理后PCA前为150左右。

Written on April 5, 2019