[AI造物主] VaultGemma：全球最强大的差分隐私大型语言模型

我们介绍了VaultGemma，这是第一个从头开始以差分隐私进行训练的最强大模型。随着人工智能日益融入我们的生活，以隐私为核心的AI构建是该领域的重要前沿。差分隐私（DP）通过添加经过校准的噪声来防止记忆，提供了一个数学上合理的解决方案。然而，将DP应用于大型语言模型（LLMs）带来了权衡。

理解这些权衡是至关重要的。应用DP噪声改变了传统的缩放法则——描述性能动态的规则——通过降低训练稳定性（模型在学习过程中保持一致能力的能力）和显著增加批量大小（同时处理的训练示例集合）和计算成本。

我们的新研究“差分隐私语言模型的缩放法则”，与Google DeepMind合作，建立了准确建模这些复杂性的法则，提供了计算、隐私和效用之间权衡的完整视图。

VaultGemma是最大的（10亿参数），从头开始以差分隐私训练的开放模型。我们将在Hugging Face和Kaggle上发布权重及技术报告，以推动下一代私人AI的发展。

通过精心设计的实验方法，我们旨在量化在DP训练背景下增加模型大小、批量大小和迭代次数的好处。我们假设模型的学习效果主要取决于“噪声-批量比”，即用于训练的随机噪声与数据组（批次）大小的比较。这个假设是有效的，因为我们添加的隐私噪声远大于来自数据采样的自然随机性。

在深入缩放法则之前，从隐私会计的角度理解计算预算、隐私预算和数据预算之间的动态和协同作用非常有用。这种分析显著更便宜，因为它不需要任何模型训练，但却能产生许多有用的见解。

例如，单独增加隐私预算导致边际效益递减，除非与计算预算（FLOPs）或数据预算（tokens）的相应增加相结合。

Gemma模型以责任和安全为核心，这使得它们成为开发生产质量DP训练模型VaultGemma的自然基础。我们使用缩放法则确定训练一个计算最优的10亿参数Gemma 2基础模型所需的计算量，以及如何在批量大小、迭代次数和序列长度之间分配这些计算以获得最佳效用。

凭借新的缩放法则和先进的训练算法，我们构建了VaultGemma，这是迄今为止最大的（10亿参数）完全预训练的差分隐私开放模型。VaultGemma的最终训练损失与我们的方程预测非常接近，验证了我们的研究，并为社区提供了可靠的未来私人模型开发路线图。

VaultGemma的正式隐私保证为（ε ≤ 2.0, δ ≤ 1.1e-10），这表明在训练过程中提供了强有力的隐私保护。

VaultGemma代表了朝着构建既强大又以隐私为设计理念的AI的重要一步。通过开发和应用对DP缩放法则的新理解，我们成功训练并发布了迄今为止最大的开放DP训练语言模型。我们相信，通过对DP训练机制设计的更多研究，可以系统性地缩小DP训练和非DP训练模型之间的效用差距。

博主点评： VaultGemma的发布不仅提升了差分隐私技术在大型语言模型中的应用，也为未来AI的发展指明了方向。随着隐私保护需求的增加，VaultGemma的研究成果将为更多AI系统的隐私设计提供理论基础与实践指导。其缩放法则的建立将有助于优化训练流程，推动AI技术的进一步发展与应用。