[核心技术] 揭示偏好预测的奥秘：三选一的力量

在1927年的论文《比较判断法则》中，美国心理学家L. L. Thurstone提出，当人们在多个选择中选择一个选项时，他们是在选择对自己具有最高价值的选项，即使他们无法给出具体的数字。Thurstone是“心理测量学”的先驱，心理测量学建立在这样一个前提上：我们看不见的心理过程依然可以被测量和量化。他的论文奠定了如今所称的随机效用模型（RUMs）的基础，这为描述人类偏好提供了数学框架，反过来可以用来预测各种假设情境。随机效用模型（RUMs）之所以被称为“随机”，是因为人们各不相同。每个人都有自己的偏好，甚至这些偏好会随时间变化。例如，某人早上通常选择咖啡，但晚上更喜欢茶，但有时他们可能会完全颠倒这个顺序。RUMs不仅用于饮料选择，实际上在政府和行业中，RUMs被广泛应用于更为重要的决策场景中，例如在重大交通堵塞情况下，人们如何选择到达工作或学校的方式，或者如果一个城市突然获得2000万美元的意外之财，如何分配这些资金以最大化公共利益。尽管RUMs已经存在近100年，并逐渐变得复杂，但并不意味着没有改进的空间。最近在巴西里约热内卢举行的国际学习表征会议上，一篇论文揭示了这些模型中还有许多未被发现的基本事实。该论文的作者包括南洋理工大学的Yeshwanth Cherapanamjeri、麻省理工学院的Gabriele Farina、Constantinos Daskalakis和Sobhan Mohammadpour。他们的研究发现部分源于RUMs在实践中常见的估计缺陷，这一缺陷自Thurstone时代以来一直存在。模型的估计数据主要来源于所谓的成对比较：在选择A和B时，你更喜欢哪个？这种方法之所以如此普遍，Daskalakis解释说，是因为给单个项目分配精确的数值评分非常困难，而比较两个事物，决定更喜欢哪个则更容易。然而，这种评估方式的缺陷在于，单纯比较两项无法揭示多种选择之间的相关性。标准的RUMs应用假设来自A和B的效用是独立的，但实际上它们可能是相互关联的，这一点非常重要。如果某个竞选者发现潜在选民支持枪支管制，那么很可能这个选民也支持政府资助的儿童保育。麻省理工学院的团队证明，单靠双向比较无法获得相关性的信息。通过大规模的人对三个选项进行排名，可以辨别出相关性。Mohammadpour解释道：“你可以让一组人对三个项目进行排名，然后利用我们开发的方法将这些个体结果合并成一个大模型，从而提供全局视角。”根据Farina的说法，他们的研究集中在RUMs的计算方面，设计能够提取偏好信息的算法，并确定所需的数据量或实验次数。好消息是，这些算法是高效的，所需的实验数量并不会随着项目数量的增加而呈指数增长。对此，蒙特利尔大学的计算机科学家Emma Frejinger评论道：“这篇论文提供了重要突破，数学证明了传统数据收集的失败，并展示了简单询问用户的三选一选择可以解锁准确训练这些强大模型的能力。这一发现为收集更好的数据以驱动更精确的优化提供了非常实用的路线图。”Daskalakis强调：“构建效用模型将始终是一个非常活跃的领域。自1990年代末以来，RUMs对互联网经济至关重要，未来它们对AI模型的对齐也同样重要。”更重要的是，他补充道：“RUMs在大型语言模型（LLMs）的商业可行性和实用性方面发挥着核心作用。”在训练期间，通常会要求人们对这些LLMs的各种候选输出进行排名，从中模型可以更好地了解人们对文本（在语气、风格和内容方面）的偏好。Daskalakis表示：“鉴于我们在众多领域中面临着海量选择，你不可能要求人们沟通所有可能情境的个人偏好。因此，构建一个模型来预测人们对不同可能结果的看法是非常有必要的。你必须在迭代过程中不断改进和更新模型，直到希望能够做出良好的预测。”

博主点评： 这项研究揭示了随机效用模型在偏好分析中的潜力，尤其是通过三选一的方式提高了数据收集的效率和准确性。这对未来的AI模型尤其重要，能够更好地理解和预测用户的需求，推动个性化服务的发展。