Neural Dueling Bandits

要約

コンテキスト決闘バンディットは、バンディット問題をモデル化するために使用されます。学習者の目標は、過去のコンテキストで選択されたアームに対する観察されたノイズの多い選好フィードバックを使用して、特定のコンテキストに最適なアームを見つけることです。
ただし、既存のアルゴリズムは報酬関数が線形であることを前提としていますが、オンラインのレコメンデーションや Web 検索結果のランキングなど、多くの現実のアプリケーションでは複雑で非線形になる可能性があります。
この課題を克服するために、ニューラル ネットワークを使用して、以前に選択したアームの好みフィードバックを使用して報酬関数を推定します。
我々は、各ラウンドでアームを効率的に選択する、線形未満のリグレス保証を備えた信頼上限境界およびトンプソン サンプリング ベースのアルゴリズムを提案します。
次に、理論的結果をバイナリ フィードバックを使用してコンテキスト バンディット問題に拡張します。これ自体は重要な貢献です。
合成データセットから導出された問題インスタンスに関する実験結果は、理論的結果を裏付けています。

要約(オリジナル)

Contextual dueling bandit is used to model the bandit problems, where a learner’s goal is to find the best arm for a given context using observed noisy preference feedback over the selected arms for the past contexts. However, existing algorithms assume the reward function is linear, which can be complex and non-linear in many real-life applications like online recommendations or ranking web search results. To overcome this challenge, we use a neural network to estimate the reward function using preference feedback for the previously selected arms. We propose upper confidence bound- and Thompson sampling-based algorithms with sub-linear regret guarantees that efficiently select arms in each round. We then extend our theoretical results to contextual bandit problems with binary feedback, which is in itself a non-trivial contribution. Experimental results on the problem instances derived from synthetic datasets corroborate our theoretical results.

arxiv情報

著者 Arun Verma,Zhongxiang Dai,Xiaoqiang Lin,Patrick Jaillet,Bryan Kian Hsiang Low
発行日 2024-07-24 09:23:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク