Google DeepMind 最近推出了一个框架,用于量化人工智能通用智能(AGI)的进展,并在 Kaggle 上发起了一场黑客马拉松,以构建相关评估。新的论文《测量 AGI 进展:认知分类法》提出了一个理解 AI 系统认知能力的科学基础。参与者可以通过设计关键认知能力的评估,争夺总额 20 万美元的奖池。
通用智能的测量面临挑战,因为缺乏评估系统一般智能的实证工具。为了追踪 AGI 的进展,需要多种方法,而认知科学是其中重要的一部分。该论文定义了 10 种关键的认知能力:
- 感知:提取和处理环境中的感官信息
- 生成:产生文本、语音和动作等输出
- 注意:将认知资源集中在重要事物上
- 学习:通过经验和指导获取新知识
- 记忆:存储和检索信息
- 推理:通过逻辑推理得出有效结论
- 元认知:对自身认知过程的知识和监控
- 执行功能:计划、抑制和认知灵活性
- 问题解决:寻找特定领域问题的有效解决方案
- 社会认知:处理和解释社会信息,适当地回应社会情境
为了评估 AI 在这些认知能力上的能力,该框架提出了三阶段评估协议:
- 在一系列认知任务中评估 AI 系统表现,使用持出测试集以防止数据污染
- 收集来自具有代表性样本的成人在相同任务中的人类基线
- 将每个 AI 系统的表现与人类在每种能力上的表现分布进行映射
此外,Kaggle 黑客马拉松“测量 AGI 进展:认知能力”鼓励参与者设计五种认知能力的评估,特别是学习、元认知、注意、执行功能和社会认知。总奖池为 20 万美元,比赛时间为 3 月 17 日至 4 月 16 日,结果将在 6 月 1 日公布。
博主点评: 通过引入认知科学与 AI 评估的结合,Google DeepMind 为 AGI 的进展提供了新的量化工具。这不仅有助于学术界理解 AGI 的构建,还为开发更智能的 AI 系统提供了明确的方向,值得关注。