[AI学术] 至善人工智能：存在风险的双刃剑

本文探讨了人工智能安全与人类福祉之间的权衡，聚焦于两种方法：一种是用于微调超级智能 AI 的前沿技术——"宪法人工智能"，另一种是理解复杂伦理决策和理性代理人福祉的影响力方法——"德性伦理学"。我们使用"德性代理人"宪法、"从属代理人"宪法和"通用代理人"宪法对不同模型进行微调，并评估它们在"一般安全性"（如有毒行为、错误信息等）及其支持广泛行为的意愿上，这些行为若被超级强大的人工智能采纳，将显著增加人类的存在风险。我们的结果表明，降低存在风险与巩固有利于 AI 代理人福祉的信念和倾向之间存在权衡。同时，降低存在风险与一般安全性之间也存在权衡：如果我们微调 AI 以使其采纳显著降低其存在风险的信念和倾向——通过使 AI 系统性地从属于外部人类权威——我们就增加了人类用户故意诱导 AI 从事各种一般不安全行为的可能性。

博主点评： 本文深入探讨了 AI 微调中的伦理困境，揭示了安全与福祉之间的微妙关系，提醒我们在追求强大 AI 的同时，必须谨慎处理可能引发的风险。这为未来的 AI 发展提供了重要的思考方向。