我们介绍了VaultGemma,这是第一个从头开始以差分隐私进行训练的最强大模型。随着人工智能日益融入我们的生活,以隐私为核心的AI构建是该领域的重要前沿。差分隐私(DP)通过添加经过校准的噪声来防止记忆,提供了一个数学上合理的解决方案。然而,将DP应用于大型语言模型(LLMs)带来了权衡。
理解这些权衡是至关重要的。应用DP噪声改变了传统的缩放法则——描述性能动态的规则——通过降低训练稳定性(模型在学习过程中保持一致能力的能力)和显著增加批量大小(同时处理的训练示例集合)和计算成本。
我们的新研究“差分隐私语言模型的缩放法则”,与Google DeepMind合作,建立了准确建模这些复杂性的法则,提供了计算、隐私和效用之间权衡的完整视图。
VaultGemma是最大的(10亿参数),从头开始以差分隐私训练的开放模型。我们将在Hugging Face和Kaggle上发布权重及技术报告,以推动下一代私人AI的发展。
理解缩放法则
通过精心设计的实验方法,我们旨在量化在DP训练背景下增加模型大小、批量大小和迭代次数的好处。我们假设模型的学习效果主要取决于“噪声-批量比”,即用于训练的随机噪声与数据组(批次)大小的比较。这个假设是有效的,因为我们添加的隐私噪声远大于来自数据采样的自然随机性。
关键发现:强大的协同作用
在深入缩放法则之前,从隐私会计的角度理解计算预算、隐私预算和数据预算之间的动态和协同作用非常有用。这种分析显著更便宜,因为它不需要任何模型训练,但却能产生许多有用的见解。
例如,单独增加隐私预算导致边际效益递减,除非与计算预算(FLOPs)或数据预算(tokens)的相应增加相结合。
应用缩放法则构建VaultGemma
Gemma模型以责任和安全为核心,这使得它们成为开发生产质量DP训练模型VaultGemma的自然基础。我们使用缩放法则确定训练一个计算最优的10亿参数Gemma 2基础模型所需的计算量,以及如何在批量大小、迭代次数和序列长度之间分配这些计算以获得最佳效用。
结果
凭借新的缩放法则和先进的训练算法,我们构建了VaultGemma,这是迄今为止最大的(10亿参数)完全预训练的差分隐私开放模型。VaultGemma的最终训练损失与我们的方程预测非常接近,验证了我们的研究,并为社区提供了可靠的未来私人模型开发路线图。
VaultGemma的正式隐私保证为(ε ≤ 2.0, δ ≤ 1.1e-10),这表明在训练过程中提供了强有力的隐私保护。
结论
VaultGemma代表了朝着构建既强大又以隐私为设计理念的AI的重要一步。通过开发和应用对DP缩放法则的新理解,我们成功训练并发布了迄今为止最大的开放DP训练语言模型。我们相信,通过对DP训练机制设计的更多研究,可以系统性地缩小DP训练和非DP训练模型之间的效用差距。
博主点评: VaultGemma的发布不仅提升了差分隐私技术在大型语言模型中的应用,也为未来AI的发展指明了方向。随着隐私保护需求的增加,VaultGemma的研究成果将为更多AI系统的隐私设计提供理论基础与实践指导。其缩放法则的建立将有助于优化训练流程,推动AI技术的进一步发展与应用。