[AI学术] 基于深度强化学习的变压器方法解决开放车间调度问题

摘要

开放车间调度问题（OSSP）在许多工业和服务环境中出现，但随着作业和机器数量的增加，其计算复杂性依然挑战重重。虽然精确方法迅速变得难以处理，但经典的调度规则和元启发式算法在大规模情况下可能需要大量调优以保持解的质量。

本研究开发了一种基于变压器的调度策略，使用编码器-解码器架构及多头注意力机制。该模型使用处理时间矩阵作为输入，在Taillard基准实例（4x4, 5x5, 7x7, 和 10x10）上进行训练，生成的可行调度通常使得完工时间在最佳已知值的15-30%范围内。

为了评估可扩展性，训练后的策略在不重新训练的情况下应用于从40x40到100x100的随机生成实例，并与经典调度启发式算法（包括SPT, LPT, MWKR和EST）进行比较。在这些大规模实例中，变压器模型相对于标准下界的平均差距为12.89-15.12%。与EST相比，变压器保持了竞争力，通常在适度的范围内，同时显著超越了SPT和LPT。这些结果表明，基于小规模OSSP实例训练的变压器策略能够推广到更大的问题，并为经典调度规则提供了一种轻量级的学习基础替代方案。

博主点评： 本文展示了深度学习在调度问题上的潜力，尤其是变压器架构的应用。通过有效利用小规模训练实例，模型成功扩展到大规模问题，表明了其在实际工业应用中的可行性与优势。