[算法理论] 超越平均：约翰椭球近似中的高精度算法解析

在对称多面体 $P=\{\mathbf{x}\in\mathbb{R}^d:\|\mathbf{A}\mathbf{x}\|_\infty\le1\}$，其中 $\mathbf{A}\in\mathbb{R}^{n\times d}$ 的约翰椭球的计算中，众多杠杆分数算法被提出，涵盖从 Cohen, Cousins, Lee 和 Yang (COLT 2019) 到后续研究 [WY24, CLS+25]，均在 $\Theta(\varepsilon^{-1}\log(n/d))$ 次迭代中实现 $(1+\varepsilon)$-近似。本文将这一复杂度分解为现代线性算法混淆的三个成本：认证、识别和准确性，并将历史上的 $\varepsilon^{-1}$ 归结于第一个。

在等价的 D-最优设计形式 $\min_{\mathbf{p}\in\Delta_n}-\log\det(\sum_i p_i\mathbf{a}_i\mathbf{a}_i^\top)$ 中，杠杆分数 oracle 恰好是第一阶 oracle，而 $(1+\varepsilon)$-约翰保证则是 Frank-Wolfe gap $g(\mathbf{p})\le\varepsilon d$；通过这一字典，成本得以分离。$\varepsilon^{-1}$ 是一个认证伪影：迭代的均匀平均，作为整个过程的证书，其 gap 正好为 $\Theta(1/T)$，然而每次迭代的成本却相对低廉。

相对于最后一次迭代，利用相同的 oracle 可以快速获得结果：一个热启动的加速方法在 $C(\mathbf{A})+O(\sqrt{\kappa}\log(1/\varepsilon))$ 次查询后便能达到保证，而一旦识别出最优面，面问题则转化为一个无约束的自一致最小化，其 Hessian 被 oracle 精确恢复，因此阻尼牛顿法仅需 $O(\log\log(1/\varepsilon))$ 步，总查询次数为 $C(\mathbf{A})+O(d^2\log\log(1/\varepsilon))$。因此，准确性的依赖性在经过一个与 $\varepsilon$ 无关、依赖条件的设置后变为双对数级；开放问题在于剩余的识别成本（到达最优面的无条件界限）和下界。准确性并不是障碍。