摘要
评估大型语言模型(LLMs)的决策能力已成为日益重要的研究方向,然而现有基准主要集中于孤立的认知任务,如推理、知识检索和经济理性,这些评估忽视了真实高管决策的核心挑战:在信息不对称、组织约束和时间依赖的情况下,整合来自专业利益相关者的相互矛盾的建议。
我们引入了 \textsc{CEO-Bench},这是一个多智能体基准,评估 LLM 在 CEO 级别的战略资源重分配能力——在一个多轮、约束丰富的组织环境中重新分配资本的过程。在 \textsc{CEO-Bench} 中,LLM 智能体接收到来自四个角色条件的 C-suite 顾问(CFO、CTO、COO、CMO)的相互矛盾的建议,每个顾问都有私有信号和不同的优先事项,LLM 必须将这些建议综合成一个具体的分配计划,评估维度包括角色整合、条件果敢、历史敏感判断和计划有效性。
在 13 个场景下对五个前沿模型的实验表明,所有模型都达到较高的结构有效性,但在战略校准上却有显著差异,这是最具挑战性的能力层面。我们识别出系统性的失败模式,包括单一顾问捕获、在模糊情况下的保守默认和历史遗忘,并揭示出结构整合与果敢之间的权衡:那些更深入参与矛盾观点的模型往往产生较少果断的行动。这些发现明确了 LLM 作为组织决策者的当前能力边界,并为未来的 AI 辅助高管系统设计提供了参考。
博主点评: 该研究通过引入 \textsc{CEO-Bench} 基准,深入探讨 LLM 在复杂决策环境中的表现,揭示了其在多角色协作中的局限性。未来在 AI 辅助决策系统的设计中,需要更好地平衡果断性与对多元意见的整合能力。