[算法理论] 折扣奖励下的先知不等式：挑战非独立同分布情形

我们研究了带有折扣奖励的先知不等式，其中独立同分布（i.i.d.）的基础奖励随时间以乘法方式折扣。我们的主要观点是，即使这种结构化且任意弱的非平稳性形式也可能消除经典的平稳 i.i.d. 设置的优势。

我们专注于单量化阈值策略，展示了竞争比率随着折扣在多个阶段的累积，从经典的 $1-1/e$ 保证转变为一个基本的 $1/2$ 阈值。在一个具有共同衰减因子和相等长度阶段的典型条件下，这一 $1/2$ 阈值即使对于任意停止规则也依然存在。

因此，在折扣下，i.i.d. 基础奖励的难度可以与完全的非 i.i.d. 情形相当。在算法层面上，我们设计了单量化阈值规则，通过校准接受决策到折扣所引起的有效地平线，实现了严格界限的达成，并将这种校准扩展到异质衰减因子和不等阶段长度。

此外，我们还展示了在无限期连续衰减基准下，任意弱的衰减如何使得平稳基准从 $1$ 降至 $1/2$ 的类似不连续性破坏情况。

博主点评： 本文探讨了折扣奖励对先知不等式的影响，强调了即使是微弱的非平稳性也能显著降低算法的竞争力。这一发现对优化算法设计具有重要意义，尤其是在实际应用中，奖励折扣的情况屡见不鲜，挑战了传统的 i.i.d. 假设。