要約
オンラインでの意思決定は、現実世界の多くのアプリケーションで重要な役割を果たしています。
多くのシナリオでは、受信データ ポイントに対する一連のテストの実行に基づいて決定が行われます。
ただし、すべてのテストを実行するとコストがかかる可能性があり、常に実行できるわけではありません。
この論文では、組み合わせマルチアームバンディットに基づいたオンライン意思決定問題の新しい定式化を提供し、テストの実行コストを考慮します。
この定式化に基づいて、事後サンプリングまたは BayesUCB を探索に利用できる、コスト効率の高いオンライン意思決定のための新しいフレームワークを提供します。
私たちはフレームワークに対して厳密な理論分析を提供し、現実世界の問題への適用可能性を実証するさまざまな実験結果を提示します。
要約(オリジナル)
Online decision making plays a crucial role in numerous real-world applications. In many scenarios, the decision is made based on performing a sequence of tests on the incoming data points. However, performing all tests can be expensive and is not always possible. In this paper, we provide a novel formulation of the online decision making problem based on combinatorial multi-armed bandits and take the cost of performing tests into account. Based on this formulation, we provide a new framework for cost-efficient online decision making which can utilize posterior sampling or BayesUCB for exploration. We provide a rigorous theoretical analysis for our framework and present various experimental results that demonstrate its applicability to real-world problems.
arxiv情報
著者 | Arman Rahbar,Niklas Åkerblom,Morteza Haghir Chehreghani |
発行日 | 2023-08-21 13:09:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google