在2020年,美国人口普查局采用了差分隐私,通过向公布的人口普查表中注入整数值高斯噪声来保护隐私。准确评估这些数据发布的隐私保证,使局方能够确定满足特定隐私预算所需的最低噪声,从而避免注入多余的噪声,显著提升数据在联邦资金分配和政治重划等下游应用中的统计效用。
本文提出了一种计算高效且数学严谨的求积方法,用于评估在异构离散高斯机制组合下实际大规模人口普查发布的确切隐私特征。数学上,该问题简化为评估从异构离散高斯分布中采样的整数值随机变量的高维卷积的尾概率,要求极其严格的数值误差容忍度(例如,$10^{-35}$)。通过将确切的隐私会计重构为数值积分问题,并利用离散傅里叶变换,我们明确利用了复杂解析周期特征函数的梯形法则的指数收敛性。
此外,为了克服在高维中评估高度振荡积分的计算瓶颈,我们开发了一种筛选算法,识别并修剪可忽略的求积节点,使计算速度提高了三个数量级。综合这些数值创新,使得2020年人口普查人口和住房特征文件的首次确切、无假设隐私会计成为可能,相较于以往的方法实现了1,824倍的加速,同时维持了人口普查要求的误差容忍度。
博主点评: 这项研究不仅优化了隐私保护机制,还极大提高了数据利用效率,展示了数学与计算方法在实际应用中的强大潜力。