要約
この論文では、遅延報酬フィードバックの課題に対処する神経文脈盗賊(CBS)の新しいアルゴリズムを提示します。ここでは、選択したアクションに対する報酬がランダムで未知の遅延の後に明らかになります。
このシナリオは、オンライン推奨システムや臨床試験などのアプリケーションで一般的です。ここでは、ユーザーのアクション(推奨事項や治療反応など)の結果または結果が時間をかけて測定して測定するために報酬フィードバックが遅れます。
遅延NeuralucBと呼ばれる提案されたアルゴリズムは、上位信頼境界(UCB)ベースの探査戦略を使用します。
独立した同一に分散されたサブエクスポンシャル報酬遅延の仮定の下で、T Length Horizonに対する累積後悔の上限を導き出します。
さらに、Thompsonサンプリングベースの探査を使用するDelayed Neuraltsと呼ばれるアルゴリズムのバリアントを検討します。
MnistやMushroomなどの実際のデータセットでの数値実験とベンチマークアプローチとの比較は、提案されたアルゴリズムがさまざまな遅延を効果的に管理し、複雑な現実世界のシナリオに適していることを示しています。
要約(オリジナル)
This paper presents a new algorithm for neural contextual bandits (CBs) that addresses the challenge of delayed reward feedback, where the reward for a chosen action is revealed after a random, unknown delay. This scenario is common in applications such as online recommendation systems and clinical trials, where reward feedback is delayed because the outcomes or results of a user’s actions (such as recommendations or treatment responses) take time to manifest and be measured. The proposed algorithm, called Delayed NeuralUCB, uses an upper confidence bound (UCB)-based exploration strategy. Under the assumption of independent and identically distributed sub-exponential reward delays, we derive an upper bound on the cumulative regret over a T-length horizon. We further consider a variant of the algorithm, called Delayed NeuralTS, that uses Thompson Sampling-based exploration. Numerical experiments on real-world datasets, such as MNIST and Mushroom, along with comparisons to benchmark approaches, demonstrate that the proposed algorithms effectively manage varying delays and are well-suited for complex real-world scenarios.
arxiv情報
著者 | Mohammadali Moghimi,Sharu Theresa Jose,Shana Moothedath |
発行日 | 2025-04-16 13:47:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google