大语言模型(LLMs)越来越多地应用于隐私敏感领域,用户需要在通过外部API的数据暴露风险和本地部署的高计算成本之间取得平衡。为此,Split学习作为LLM微调和推理的新兴范式在有限的本地资源下表现出色。然而,这也带来了新的隐私风险。以往的研究主要集中在通过对中间表示进行反演攻击而导致的私有输入提示的泄露,而生成响应输出中敏感信息泄露的潜力则鲜有探讨。
在本研究中,我们揭示了Split-LLM的新型脆弱性,提出了双面初始化的修补模型反演(PIDI),这是一种两阶段攻击,旨在同时针对Split-LLM环境中的私有输入提示和输出响应。它结合了双面初始化与修补反演策略,以应对长序列,在性能上大幅超越以往的反演方法。
为了抵御来自两个方向的威胁,我们进一步提出了基于适配器的双重防护与互信息防御(ADMI),该方法集成了适配器本地预热策略和互信息正则化,以在对任务性能影响最小的情况下提供强大的经验隐私保护。广泛的实验结果表明,ADMI有效防御PIDI及其他最先进的反演攻击。
我们的代码已公开发布于 GitHub。
博主点评: 该研究提出的双面攻击与防御机制为Split LLM的隐私保护提供了新的视角,尤其是在处理长序列数据时,展现出强大的实用性与有效性。未来的研究可进一步探索在不同应用场景中的适应性与优化潜力。