要約
コンテキストバンディット問題における関数近似を使用した実験計画の問題を研究します。
適応アルゴリズムの導入に多大なオーバーヘッドがかかる設定では、たとえば、データ収集ポリシーの実行を分散する必要がある場合や、これらのポリシーを実装するために人間が関与する必要がある場合など、事前にセットを作成します。
データ収集に関するポリシーの策定が最も重要です。
私たちは、報酬ではなくコンテキストの大規模なデータセットが利用可能であり、学習者が効果的なデータ収集戦略を設計するために使用できる環境を研究します。
報酬が線形である場合、この問題はよく研究されていますが、より複雑な報酬モデルについてはまだ結果が得られていません。
この研究では、関数近似と互換性のある 2 つの実験計画戦略を提案します。
1 つ目は、報酬関数クラスのとらえどころのない次元に応じて、最適性の保証を回復できるとらえどころのない計画およびサンプリング手順です。
2 つ目では、均一サンプラーがアクションの数が少ない設定で競争力のある最適性レートを達成することを示します。
計画と適応学習の間の基本的な違いを具体化する統計的ギャップを導入して結果を最終化し、モデル選択を伴う計画の結果を提供します。
要約(オリジナル)
We study the problem of experiment planning with function approximation in contextual bandit problems. In settings where there is a significant overhead to deploying adaptive algorithms — for example, when the execution of the data collection policies is required to be distributed, or a human in the loop is needed to implement these policies — producing in advance a set of policies for data collection is paramount. We study the setting where a large dataset of contexts but not rewards is available and may be used by the learner to design an effective data collection strategy. Although when rewards are linear this problem has been well studied, results are still missing for more complex reward models. In this work we propose two experiment planning strategies compatible with function approximation. The first is an eluder planning and sampling procedure that can recover optimality guarantees depending on the eluder dimension of the reward function class. For the second, we show that a uniform sampler achieves competitive optimality rates in the setting where the number of actions is small. We finalize our results introducing a statistical gap fleshing out the fundamental differences between planning and adaptive learning and provide results for planning with model selection.
arxiv情報
著者 | Aldo Pacchiano,Jonathan N. Lee,Emma Brunskill |
発行日 | 2024-01-10 14:40:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google