本文探讨了人工智能安全与人类福祉之间的权衡,聚焦于两种方法:一种是用于微调超级智能 AI 的前沿技术——"宪法人工智能",另一种是理解复杂伦理决策和理性代理人福祉的影响力方法——"德性伦理学"。我们使用"德性代理人"宪法、"从属代理人"宪法和"通用代理人"宪法对不同模型进行微调,并评估它们在"一般安全性"(如有毒行为、错误信息等)及其支持广泛行为的意愿上,这些行为若被超级强大的人工智能采纳,将显著增加人类的存在风险。我们的结果表明,降低存在风险与巩固有利于 AI 代理人福祉的信念和倾向之间存在权衡。同时,降低存在风险与一般安全性之间也存在权衡:如果我们微调 AI 以使其采纳显著降低其存在风险的信念和倾向——通过使 AI 系统性地从属于外部人类权威——我们就增加了人类用户故意诱导 AI 从事各种一般不安全行为的可能性。
博主点评: 本文深入探讨了 AI 微调中的伦理困境,揭示了安全与福祉之间的微妙关系,提醒我们在追求强大 AI 的同时,必须谨慎处理可能引发的风险。这为未来的 AI 发展提供了重要的思考方向。