Concentration Tail-Bound Analysis of Coevolutionary and Bandit Learning Algorithms

要約

実行時分析は、AI 理論の一分野であり、アルゴリズムの設計と問題の構造に応じて、解を見つけるまでにアルゴリズムの反復回数 (実行時間) がどのようにかかるかを研究します。
ドリフト分析は、進化アルゴリズムやバンディット アルゴリズムなどのランダム化アルゴリズムの実行時間を推定するための最先端のツールです。
ドリフトとは、反復ごとに最適化に向けて予想される進捗状況を大まかに指します。
この論文では、アルゴリズムの実行時間/リグレットに関する濃度の裾野を導出する問題を検討します。
これは、正、弱い、ゼロ、さらには負のドリフトが与えられた場合に、正確な指数関数的なテール境界を与える新しいドリフト定理を提供します。
以前は、弱いドリフト、ゼロ、または負のドリフトの場合、このような指数関数的なテール境界は欠落していました。
私たちのドリフト定理は、AI におけるアルゴリズムのランタイム/リグレットの集中を証明するために使用できます。
たとえば、以前の分析では予想される後悔だけが考慮されていたのに対し、\rwab バンディット アルゴリズムの後悔は非常に集中していることを証明しました。
これは、アルゴリズムが特定の時間枠内で高い確率で最適値を取得すること、つまりアルゴリズムの信頼性の一種であることを意味します。
さらに、私たちの定理は、共進化アルゴリズム RLS-PD が \bilinear max-min-benchmark 問題でナッシュ均衡を得るのに必要な時間が非常に集中していることを意味します。
ただし、アルゴリズムがナッシュ均衡を忘れており、これが発生するまでの時間が非常に集中していることも証明します。
これは、RLS-PD の弱点を浮き彫りにしており、将来の研究で解決する必要があります。

要約(オリジナル)

Runtime analysis, as a branch of the theory of AI, studies how the number of iterations algorithms take before finding a solution (its runtime) depends on the design of the algorithm and the problem structure. Drift analysis is a state-of-the-art tool for estimating the runtime of randomised algorithms, such as evolutionary and bandit algorithms. Drift refers roughly to the expected progress towards the optimum per iteration. This paper considers the problem of deriving concentration tail-bounds on the runtime/regret of algorithms. It provides a novel drift theorem that gives precise exponential tail-bounds given positive, weak, zero and even negative drift. Previously, such exponential tail bounds were missing in the case of weak, zero, or negative drift. Our drift theorem can be used to prove a strong concentration of the runtime/regret of algorithms in AI. For example, we prove that the regret of the \rwab bandit algorithm is highly concentrated, while previous analyses only considered the expected regret. This means that the algorithm obtains the optimum within a given time frame with high probability, i.e. a form of algorithm reliability. Moreover, our theorem implies that the time needed by the co-evolutionary algorithm RLS-PD to obtain a Nash equilibrium in a \bilinear max-min-benchmark problem is highly concentrated. However, we also prove that the algorithm forgets the Nash equilibrium, and the time until this occurs is highly concentrated. This highlights a weakness in the RLS-PD which should be addressed by future work.

arxiv情報

著者 Per Kristian Lehre,Shishen Lin
発行日 2024-05-07 16:45:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.NE パーマリンク