[AI学术] 人工智能应对人类价值的真实反思

在这篇文章中，我们辩称，将人工智能与人类的聚合偏好对齐是错误的目标。当前技术可以训练出与硅谷技术乐观主义者、去增长环境主义者、民族保守文化战士、单一党派国家干部或虔诚宗教传统主义者相符的人工智能，但这并不可取。人类的价值观决定了社会的兴衰，从失败的国家和极端不平等到富裕民主国家中日益下降的幸福感、政治极化和政府失能。

我们认为，虽然多元对齐计划正确地诊断出没有单一的“人性”可以对齐，但如果将其作为主要指令则是危险的。人工智能应被训练以一个不可妥协的客观对齐目标为底线——即能力，受限于事实准确性、诚实性和合法性的约束。同时，多元性应体现在表面（语言、风格、惯例、缺失的上下文默认值）及在尊重底线的广泛合法价值权衡中，而不是在违反底线的价值观层面。

我们强调了未经过滤的多元价值的经验现实，提出了四项承诺作为建设性的替代方案，并回应了六个合理的反对意见：商业压力和实际可行性、民主合法性、监管合规性、对制度主义解释的过度依赖、指控底线本身是文化负担，以及一致外推意志的局限性。

博主点评： 本文深入探讨了人工智能与人类价值的对齐问题，提出了对当前技术的挑战与思考，呼吁在对齐过程中保持客观底线，确保AI的价值观不偏离道德与法律的轨道。这样的思考对未来AI的发展方向具有重要指导意义。