要約
私たちは、通信制約のネットワークを介したMABアルゴリズムの採用の増加によって動機付けられた腕の消去チャネルを介した分散マルチアームの盗賊(MAB)問題を研究します。
このセットアップでは、学習者は、選択したアームを通信して、[0,1)$の確率$ \ epsilon \で消去チャネルでエージェントにプレイします。
消去が発生した場合、エージェントは最後に正常に受け取った腕を引っ張り続けます。
学習者は常に引っ張られた腕の報酬を観察します。
過去の仕事では、エージェントが学習者にフィードバックを伝えることができない場合を検討しました。したがって、学習者は、再生されたアームが要求されたものであるか、最後に正常に受け取ったものであるかを知りません。
この論文では、代わりに、エージェントがARMリクエストが受信されたかどうかについて学習者にフィードバックを送信できる場合を検討します。
驚くべきことに、消去フィードバックは、以前に調査された非フィードバック設定で最悪の後悔の上限順序を改善しないことを証明します。
特に、$ \ omega(\ sqrt {kt} + k /(1- \ epsilon))$の後悔の下限を証明します。ここで、$ k $は腕の数、$ t $は、対数要因までのフィードバックの上限に一致します。
ただし、フィードバックの可用性により、より良い定数(より良い順序ではありませんが)後悔の境界を達成する可能性のあるより単純なアルゴリズム設計が可能になることに注意してください。
そのようなアルゴリズムの1つを設計し、そのパフォーマンスを数値的に評価します。
要約(オリジナル)
We study a distributed multi-armed bandit (MAB) problem over arm erasure channels, motivated by the increasing adoption of MAB algorithms over communication-constrained networks. In this setup, the learner communicates the chosen arm to play to an agent over an erasure channel with probability $\epsilon \in [0,1)$; if an erasure occurs, the agent continues pulling the last successfully received arm; the learner always observes the reward of the arm pulled. In past work, we considered the case where the agent cannot convey feedback to the learner, and thus the learner does not know whether the arm played is the requested or the last successfully received one. In this paper, we instead consider the case where the agent can send feedback to the learner on whether the arm request was received, and thus the learner exactly knows which arm was played. Surprisingly, we prove that erasure feedback does not improve the worst-case regret upper bound order over the previously studied no-feedback setting. In particular, we prove a regret lower bound of $\Omega(\sqrt{KT} + K / (1 – \epsilon))$, where $K$ is the number of arms and $T$ the time horizon, that matches no-feedback upper bounds up to logarithmic factors. We note however that the availability of feedback enables simpler algorithm designs that may achieve better constants (albeit not better order) regret bounds; we design one such algorithm and evaluate its performance numerically.
arxiv情報
著者 | Merve Karakas,Osama Hanna,Lin F. Yang,Christina Fragouli |
発行日 | 2025-04-29 16:10:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google