要約
組み合わせマルチアライドバンディット(CMAB)は、過去10年間で広範囲に研究された基本的なシーケンシャルな意思決定フレームワークです。
ただし、既存の作業は主にオンライン設定に焦点を当てており、オンラインインタラクションの実質的なコストとすぐに利用可能なオフラインデータセットを見落としています。
これらの制限を克服するために、CMABの最初のオフライン学習フレームワークであるOff-CMABを紹介します。
私たちのフレームワークの中心は、Combinatorial Lower Nower Confitional Bound(CLCB)アルゴリズムであり、これは悲観的な報酬の推定と組み合わせソルバーを組み合わせています。
オフラインデータセットの品質を特徴付けるために、2つの新しいデータカバレッジ条件を提案し、これらの条件下では、CLCBが最適に近いほぼ微小なギャップを達成し、理論的な下限を対数係数に合わせて達成することを証明します。
ランク付けの学習、大規模な言語モデル(LLM)キャッシング、社会的影響の最大化など、実用的なアプリケーションを通じてオフCMABを検証し、非線形報酬機能、一般的なフィードバックモデル、および分散除外アクションサンプルを処理する能力を示しています。
最適または実行可能なアクション。
合成および実世界のデータセットに関する広範な実験は、CLCBの優れた性能をさらに強調しています。
要約(オリジナル)
The combinatorial multi-armed bandit (CMAB) is a fundamental sequential decision-making framework, extensively studied over the past decade. However, existing work primarily focuses on the online setting, overlooking the substantial costs of online interactions and the readily available offline datasets. To overcome these limitations, we introduce Off-CMAB, the first offline learning framework for CMAB. Central to our framework is the combinatorial lower confidence bound (CLCB) algorithm, which combines pessimistic reward estimations with combinatorial solvers. To characterize the quality of offline datasets, we propose two novel data coverage conditions and prove that, under these conditions, CLCB achieves a near-optimal suboptimality gap, matching the theoretical lower bound up to a logarithmic factor. We validate Off-CMAB through practical applications, including learning to rank, large language model (LLM) caching, and social influence maximization, showing its ability to handle nonlinear reward functions, general feedback models, and out-of-distribution action samples that excludes optimal or even feasible actions. Extensive experiments on synthetic and real-world datasets further highlight the superior performance of CLCB.
arxiv情報
著者 | Xutong Liu,Xiangxiang Dai,Jinhang Zuo,Siwei Wang,Carlee-Joe Wong,John C. S. Lui,Wei Chen |
発行日 | 2025-01-31 16:56:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google