[AI学术] 大型语言模型能否担任CEO？多角色智能体模拟的战略资源重分配基准评估

摘要

评估大型语言模型（LLMs）的决策能力已成为日益重要的研究方向，然而现有基准主要集中于孤立的认知任务，如推理、知识检索和经济理性，这些评估忽视了真实高管决策的核心挑战：在信息不对称、组织约束和时间依赖的情况下，整合来自专业利益相关者的相互矛盾的建议。

我们引入了 \textsc{CEO-Bench}，这是一个多智能体基准，评估 LLM 在 CEO 级别的战略资源重分配能力——在一个多轮、约束丰富的组织环境中重新分配资本的过程。在 \textsc{CEO-Bench} 中，LLM 智能体接收到来自四个角色条件的 C-suite 顾问（CFO、CTO、COO、CMO）的相互矛盾的建议，每个顾问都有私有信号和不同的优先事项，LLM 必须将这些建议综合成一个具体的分配计划，评估维度包括角色整合、条件果敢、历史敏感判断和计划有效性。

在 13 个场景下对五个前沿模型的实验表明，所有模型都达到较高的结构有效性，但在战略校准上却有显著差异，这是最具挑战性的能力层面。我们识别出系统性的失败模式，包括单一顾问捕获、在模糊情况下的保守默认和历史遗忘，并揭示出结构整合与果敢之间的权衡：那些更深入参与矛盾观点的模型往往产生较少果断的行动。这些发现明确了 LLM 作为组织决策者的当前能力边界，并为未来的 AI 辅助高管系统设计提供了参考。

博主点评： 该研究通过引入 \textsc{CEO-Bench} 基准，深入探讨 LLM 在复杂决策环境中的表现，揭示了其在多角色协作中的局限性。未来在 AI 辅助决策系统的设计中，需要更好地平衡果断性与对多元意见的整合能力。