要約
Banditアルゴリズムのほとんどの実際の展開は、オフラインとオンラインのセットアップの間に存在し、いくつかの履歴データが前もって利用可能で、追加データがオンラインで動的に収集されます。
履歴データを「ウォームスタート」盗賊アルゴリズムに組み込むのが最善の方法は、未解決の問題です。すべての履歴サンプルを使用した報酬の見積もりを素朴に初期化する可能性があり、偽のデータと不均衡なデータカバレッジに苦しみ、データの非効率性(使用される履歴データの量) – 特に継続的なアクションスペースで。
これらの課題に対処するために、履歴データをあらゆる任意のベースバンディットアルゴリズムに組み込むためのメタアルゴリズムである人工的な課題を提案します。
人工レプレイは、完全なウォームスタートアプローチと比較して、履歴データのほんの一部のみを使用しているが、紹介する斬新で広く適用可能なプロパティである無関係なデータ(IIDATA)の独立性を満たす基本アルゴリズムに対して同一の後悔を達成していることを示しています。
これらの理論的結果を、K装甲盗賊と連続組み合わせ盗賊に関する実験で補完し、そこで実際の密猟データを使用してグリーンセキュリティドメインをモデル化します。
私たちの結果は、IIDATAを満たさない基本アルゴリズムを含む、データ効率を改善するための人工的な課題の実際的な利点を示しています。
要約(オリジナル)
Most real-world deployments of bandit algorithms exist somewhere in between the offline and online set-up, where some historical data is available upfront and additional data is collected dynamically online. How best to incorporate historical data to ‘warm start’ bandit algorithms is an open question: naively initializing reward estimates using all historical samples can suffer from spurious data and imbalanced data coverage, leading to data inefficiency (amount of historical data used) – particularly for continuous action spaces. To address these challenges, we propose ArtificialReplay, a meta-algorithm for incorporating historical data into any arbitrary base bandit algorithm. We show that ArtificialReplay uses only a fraction of the historical data compared to a full warm-start approach, while still achieving identical regret for base algorithms that satisfy independence of irrelevant data (IIData), a novel and broadly applicable property that we introduce. We complement these theoretical results with experiments on K-armed bandits and continuous combinatorial bandits, on which we model green security domains using real poaching data. Our results show the practical benefits of ArtificialReplay for improving data efficiency, including for base algorithms that do not satisfy IIData.
arxiv情報
著者 | Siddhartha Banerjee,Sean R. Sinclair,Milind Tambe,Lily Xu,Christina Lee Yu |
発行日 | 2025-03-19 13:51:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google