Contextual Bandits and Imitation Learning via Preference-Based Active Queries

要約

私たちは、学習者が実行されたアクションの報酬についての直接的な知識を欠いている状況依存型盗賊と模倣学習の問題を検討します。
代わりに、学習者は各ラウンドで専門家に積極的に問い合わせて 2 つのアクションを比較し、ノイズの多い好みのフィードバックを受け取ることができます。
学習者の目的は 2 つあります。実行されたアクションに関連する後悔を最小限に抑えると同時に、専門家に対する比較クエリの数を最小限に抑えることです。
この論文では、学習者が適切なリンク関数の下で専門家の選好モデルを表現できる関数クラスにアクセスできることを前提とし、この関数クラスに関してオンライン回帰オラクルを利用してアクションを選択し、いつクエリを実行するかを決定するアルゴリズムを提供します。
コンテキスト バンディット設定の場合、私たちのアルゴリズムは、$O(\min\{\sqrt{T}, d/\Delta\})$ のスケーリングで、両方の長所を組み合わせたリグレス バウンドを達成します。ここで、$T$ はインタラクションの数を表し、$d$ は関数クラスのとらえどころのない次元を表し、$\Delta$ は、すべてのコンテキストでの次善のアクションに対する最適なアクションの最小優先度を表します。
私たちのアルゴリズムは $\Delta$ の知識を必要とせず、得られる後悔限界は、学習者が各ラウンドで報酬シグナルを観察する標準的なコンテキスト バンディット設定で達成できるものに匹敵します。
さらに、私たちのアルゴリズムはエキスパートに対して $O(\min\{T, d^2/\Delta^2\})$ クエリのみを行います。
次に、アルゴリズムを模倣学習設定に拡張します。学習エージェントは、それぞれ長さ $H$ のエピソードで未知の環境と関わり、後悔とクエリの複雑さに対して同様の保証を提供します。
興味深いことに、模倣学習用の私たちのアルゴリズムは、最適ではない場合でも基礎となる専門家を上回るパフォーマンスを学習することができ、模倣学習における好みに基づくフィードバックの実際的な利点を強調しています。

要約(オリジナル)

We consider the problem of contextual bandits and imitation learning, where the learner lacks direct knowledge of the executed action’s reward. Instead, the learner can actively query an expert at each round to compare two actions and receive noisy preference feedback. The learner’s objective is two-fold: to minimize the regret associated with the executed actions, while simultaneously, minimizing the number of comparison queries made to the expert. In this paper, we assume that the learner has access to a function class that can represent the expert’s preference model under appropriate link functions, and provide an algorithm that leverages an online regression oracle with respect to this function class for choosing its actions and deciding when to query. For the contextual bandit setting, our algorithm achieves a regret bound that combines the best of both worlds, scaling as $O(\min\{\sqrt{T}, d/\Delta\})$, where $T$ represents the number of interactions, $d$ represents the eluder dimension of the function class, and $\Delta$ represents the minimum preference of the optimal action over any suboptimal action under all contexts. Our algorithm does not require the knowledge of $\Delta$, and the obtained regret bound is comparable to what can be achieved in the standard contextual bandits setting where the learner observes reward signals at each round. Additionally, our algorithm makes only $O(\min\{T, d^2/\Delta^2\})$ queries to the expert. We then extend our algorithm to the imitation learning setting, where the learning agent engages with an unknown environment in episodes of length $H$ each, and provide similar guarantees for regret and query complexity. Interestingly, our algorithm for imitation learning can even learn to outperform the underlying expert, when it is suboptimal, highlighting a practical benefit of preference-based feedback in imitation learning.

arxiv情報

著者 Ayush Sekhari,Karthik Sridharan,Wen Sun,Runzhe Wu
発行日 2023-07-24 16:36:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG パーマリンク