在这篇文章中,我们辩称,将人工智能与人类的聚合偏好对齐是错误的目标。当前技术可以训练出与硅谷技术乐观主义者、去增长环境主义者、民族保守文化战士、单一党派国家干部或虔诚宗教传统主义者相符的人工智能,但这并不可取。人类的价值观决定了社会的兴衰,从失败的国家和极端不平等到富裕民主国家中日益下降的幸福感、政治极化和政府失能。
我们认为,虽然多元对齐计划正确地诊断出没有单一的“人性”可以对齐,但如果将其作为主要指令则是危险的。人工智能应被训练以一个不可妥协的客观对齐目标为底线——即能力,受限于事实准确性、诚实性和合法性的约束。同时,多元性应体现在表面(语言、风格、惯例、缺失的上下文默认值)及在尊重底线的广泛合法价值权衡中,而不是在违反底线的价值观层面。
我们强调了未经过滤的多元价值的经验现实,提出了四项承诺作为建设性的替代方案,并回应了六个合理的反对意见:商业压力和实际可行性、民主合法性、监管合规性、对制度主义解释的过度依赖、指控底线本身是文化负担,以及一致外推意志的局限性。
博主点评: 本文深入探讨了人工智能与人类价值的对齐问题,提出了对当前技术的挑战与思考,呼吁在对齐过程中保持客观底线,确保AI的价值观不偏离道德与法律的轨道。这样的思考对未来AI的发展方向具有重要指导意义。