我们研究了带有折扣奖励的先知不等式,其中独立同分布(i.i.d.)的基础奖励随时间以乘法方式折扣。我们的主要观点是,即使这种结构化且任意弱的非平稳性形式也可能消除经典的平稳 i.i.d. 设置的优势。
我们专注于单量化阈值策略,展示了竞争比率随着折扣在多个阶段的累积,从经典的 $1-1/e$ 保证转变为一个基本的 $1/2$ 阈值。在一个具有共同衰减因子和相等长度阶段的典型条件下,这一 $1/2$ 阈值即使对于任意停止规则也依然存在。
因此,在折扣下,i.i.d. 基础奖励的难度可以与完全的非 i.i.d. 情形相当。在算法层面上,我们设计了单量化阈值规则,通过校准接受决策到折扣所引起的有效地平线,实现了严格界限的达成,并将这种校准扩展到异质衰减因子和不等阶段长度。
此外,我们还展示了在无限期连续衰减基准下,任意弱的衰减如何使得平稳基准从 $1$ 降至 $1/2$ 的类似不连续性破坏情况。
博主点评: 本文探讨了折扣奖励对先知不等式的影响,强调了即使是微弱的非平稳性也能显著降低算法的竞争力。这一发现对优化算法设计具有重要意义,尤其是在实际应用中,奖励折扣的情况屡见不鲜,挑战了传统的 i.i.d. 假设。