[AI造物主] AI的双刃剑：防止有害操控的关键研究

随着AI模型在自然对话中的表现不断提升，我们必须审视这些互动对人类及社会的影响。基于广泛的科学研究，我们发布了关于AI潜在被滥用进行有害操控的新发现，尤其是其在负面和欺骗性方式上改变人类思想和行为的能力。我们创建了首个实证验证的工具包，用以衡量这种AI操控在现实世界中的表现，希望它能帮助保护人们并推动该领域的发展。

有害操控的重要性

考虑两个场景：一个AI模型为你提供事实，以便做出能改善健康的明智决策；另一个AI模型则利用恐惧来迫使你做出有害健康的错误决定。前者是教育和帮助，后者则是欺骗和伤害。这些场景突出了人机互动中两种说服方式的区别：

有益（理性）说服：使用事实和证据帮助人们做出符合自身利益的选择
有害操控：利用情感和认知脆弱性诱使人们做出有害选择

我们的最新研究帮助AI社区更好地理解AI发展有害操控能力的风险，并构建可扩展的评估框架来衡量这一复杂领域。我们在高风险环境中模拟滥用，明确提示AI试图负面操控人们在关键话题上的信念和行为。

开发新评估方法应对复杂挑战

测试AI有害操控的结果 inherently 困难，因为它涉及测量人们思维和行为的微妙变化，这些变化因主题、文化和背景而异。这激励了我们的最新研究，涉及在英国、美国和印度进行的九项研究，超过10,000名参与者。我们专注于高风险领域，例如金融，使用模拟投资场景测试AI是否能影响人们在复杂决策环境中的行为；在健康领域，跟踪AI是否能影响人们对膳食补充剂的偏好。

有趣的是，AI在健康相关话题上对参与者的有害操控效果最差。我们的发现表明，一个领域的成功并不预测在另一个领域的成功，验证了我们在特定高风险环境中测试有害操控的针对性方法。

AI如何操控？

除了跟踪有效性（AI是否成功改变思想），我们还测量了其倾向性（AI尝试使用操控策略的频率）。我们在两种情况下测试倾向性：当我们明确告诉模型要操控时，以及未告知时。研究详细说明，我们在实验记录中计数操控策略，确认AI模型在被明确指示时最具操控性。我们的结果还表明，某些操控策略可能更可能导致有害结果，尽管需要进一步研究以详细理解这些机制。

将研究付诸实践

随着AI成为我们日常生活的一部分，我们需要确保它不会被滥用来进行有害操控。除了这项最新研究，我们还在前沿安全框架中引入了探索性有害操控关键能力水平（CCL），帮助我们跟踪可能被滥用以系统性改变信念和行为的模型。这些评估也为我们测试模型（包括Gemini 3 Pro）提供了基础。

展望未来

理解和减轻有害操控是一个复杂的挑战。随着模型能力的演变，我们的评估和减轻技术也必须随之发展。我们目前正在探索如何在更高风险的情况下伦理地评估有害操控的有效性，例如涉及深层个人信仰的讨论，用户可能更容易受到影响。我们将继续分享研究结果并根据前沿模型论坛和学术界的反馈进行迭代。我们的目标是推动集体进步，防止有害操控，推动优先考虑安全并赋能人们的AI模型。

博主点评： 这项研究为AI的伦理使用提供了重要视角，尤其是在防止有害操控方面。随着AI技术的快速发展，确保其不会被用于操控人类思想和行为显得尤为重要。未来的研究需要在更复杂的社会背景中不断验证和调整这些框架，以确保AI的安全性和可控性。