Pairwise Elimination with Instance-Dependent Guarantees for Bandits with Cost Subsidy

要約

マルチアーム バンディット (MAB) は、各決定の報酬が未知の確率変数である場合に、オンラインでの逐次的な意思決定によく使用されます。
ただし、実際には、報酬の制約がある場合、総報酬を最大化するという一般的な目標は、下される意思決定の総コストを最小化することより重要ではない可能性があります。
例えば、私たちは、可能な限り低いコストで、少なくとも参照「デフォルト」決定の報酬を伴う決定を下そうとするかもしれません。
この問題は最近、Multi-Armed Bandits with Cost Subsidy (MAB-CS) フレームワークで導入されました。
MAB-CS は、プライマリ メトリック (コスト) がセカンダリ メトリック (報酬) によって制約され、報酬が不明な問題領域に広く適用できます。
私たちの研究では、既知の参照アームの報酬または補助金付きの最高の報酬によって報酬が制約されるものを含む、MAB-CS のバリアントに取り組んでいます。
既知の参照アームバリアントに対してペアワイズエリミネーション (PE) アルゴリズムを導入し、補助金付きの最良報酬バリアントに対して PE を PE-CS に一般化します。
PE と PE-CS のインスタンス依存の分析では、両方のアルゴリズムにコストと品質の後悔に関する順序ごとの対数上限があることが明らかになり、私たちのポリシーがそのような保証を備えた最初のポリシーになります。
さらに、上限と下限の結果を比較することで、既知のすべての参照アーム問題インスタンスに対して PE が次数最適であることを確立します。
最後に、PE と PE-CS の両方に対して MovieLens 25M と Goodreads データセットを使用して実験が実施され、PE の有効性と、文献のベースラインと比較して PE-CS によって提供されるパフォーマンスと信頼性の間の優れたバランスが明らかになりました。

要約(オリジナル)

Multi-armed bandits (MAB) are commonly used in sequential online decision-making when the reward of each decision is an unknown random variable. In practice however, the typical goal of maximizing total reward may be less important than minimizing the total cost of the decisions taken, subject to a reward constraint. For example, we may seek to make decisions that have at least the reward of a reference “default” decision, with as low a cost as possible. This problem was recently introduced in the Multi-Armed Bandits with Cost Subsidy (MAB-CS) framework. MAB-CS is broadly applicable to problem domains where a primary metric (cost) is constrained by a secondary metric (reward), and the rewards are unknown. In our work, we address variants of MAB-CS including ones with reward constrained by the reward of a known reference arm or by the subsidized best reward. We introduce the Pairwise-Elimination (PE) algorithm for the known reference arm variant and generalize PE to PE-CS for the subsidized best reward variant. Our instance-dependent analysis of PE and PE-CS reveals that both algorithms have an order-wise logarithmic upper bound on Cost and Quality Regret, making our policies the first with such a guarantee. Moreover, by comparing our upper and lower bound results we establish that PE is order-optimal for all known reference arm problem instances. Finally, experiments are conducted using the MovieLens 25M and Goodreads datasets for both PE and PE-CS revealing the effectiveness of PE and the superior balance between performance and reliability offered by PE-CS compared to baselines from the literature.

arxiv情報

著者 Ishank Juneja,Carlee Joe-Wong,Osman Yağan
発行日 2025-01-17 16:34:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク