要約
オンライン逐次意思決定の分野では、決定のフィードバックが未知の遅延で到着する可能性があるオンライン凸最適化 (OCO) のフレームワークを利用して遅延の問題に取り組みます。
ユークリッドノルムと勾配情報に限定されていた以前の研究とは異なり、さまざまなタイプの受信フィードバックを処理するための近似解に基づく遅延アルゴリズムの 3 つのファミリーを提案します。
私たちが提案するアルゴリズムは多用途であり、普遍的な基準に適用できます。
具体的には、損失関数に関する完全な情報を含むフィードバック用の Follow the Delayed Regularized Leader アルゴリズムのファミリー、損失関数の勾配情報を含むフィードバック用の Delayed Mirror Descent アルゴリズムのファミリー、およびフィードバック用の Simplified Delayed Mirror Descent アルゴリズムのファミリーを導入します。
対応する決定点における損失関数の勾配の値情報を伴います。
アルゴリズムのタイプごとに、一般的な凸性と相対的な強い凸性のケースに対応するリグレス限界をそれぞれ提供します。
また、具体的な例を通じて、さまざまな基準の下での各アルゴリズムの効率性も示します。
さらに、理論的な結果は、標準設定に縮退した場合の現在の最良の境界と一致します。
要約(オリジナル)
In the field of online sequential decision-making, we address the problem with delays utilizing the framework of online convex optimization (OCO), where the feedback of a decision can arrive with an unknown delay. Unlike previous research that is limited to Euclidean norm and gradient information, we propose three families of delayed algorithms based on approximate solutions to handle different types of received feedback. Our proposed algorithms are versatile and applicable to universal norms. Specifically, we introduce a family of Follow the Delayed Regularized Leader algorithms for feedback with full information on the loss function, a family of Delayed Mirror Descent algorithms for feedback with gradient information on the loss function and a family of Simplified Delayed Mirror Descent algorithms for feedback with the value information of the loss function’s gradients at corresponding decision points. For each type of algorithm, we provide corresponding regret bounds under cases of general convexity and relative strong convexity, respectively. We also demonstrate the efficiency of each algorithm under different norms through concrete examples. Furthermore, our theoretical results are consistent with the current best bounds when degenerated to standard settings.
arxiv情報
著者 | Ping Wu,Heyan Huang,Zhengyang Liu |
発行日 | 2024-02-12 15:17:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google