Causally Abstracted Multi-armed Bandits

要約

マルチアームドバンディット (MAB) と因果的 MAB (CMAB) は、意思決定の問題に対する確立されたフレームワークです。
従来の研究の大部分は、通常、特定の問題および関連データについて個別の MAB と CMAB を個別に研究し、解決します。
ただし、意思決定者は、問題の構造とデータの依存関係を効率的に活用するために共同定式化が必要となる、複数の関連する問題やマルチスケールの観察に直面することがよくあります。
CMAB の転移学習は、因果関係が異なる可能性があるにもかかわらず、モデルが同一の変数に対して定義されている状況に対処します。
この研究では、転移学習を、さまざまな粒度で潜在的に異なる変数に対して定義され、抽象化マップを介して関連付けられた CMAB を含むセットアップに拡張します。
形式的には、厳密な抽象化マップを表現するために因果的抽象化の理論に依存することにより、因果的に抽象化された MAB (CAMAB) の問題を導入します。
私たちは、CAMABで学習し、彼らの後悔を研究するためのアルゴリズムを提案します。
オンライン広告に関連する現実世界のシナリオにおけるアルゴリズムの限界と強みを説明します。

要約(オリジナル)

Multi-armed bandits (MAB) and causal MABs (CMAB) are established frameworks for decision-making problems. The majority of prior work typically studies and solves individual MAB and CMAB in isolation for a given problem and associated data. However, decision-makers are often faced with multiple related problems and multi-scale observations where joint formulations are needed in order to efficiently exploit the problem structures and data dependencies. Transfer learning for CMABs addresses the situation where models are defined on identical variables, although causal connections may differ. In this work, we extend transfer learning to setups involving CMABs defined on potentially different variables, with varying degrees of granularity, and related via an abstraction map. Formally, we introduce the problem of causally abstracted MABs (CAMABs) by relying on the theory of causal abstraction in order to express a rigorous abstraction map. We propose algorithms to learn in a CAMAB, and study their regret. We illustrate the limitations and the strengths of our algorithms on a real-world scenario related to online advertising.

arxiv情報

著者 Fabio Massimo Zennaro,Nicholas Bishop,Joel Dyer,Yorgos Felekis,Anisoara Calinescu,Michael Wooldridge,Theodoros Damoulas
発行日 2024-04-26 15:48:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク