要約
転移学習は、関連するソースエージェントからの知識を統合することで、学習を加速させる効果的なアプローチとして登場した。しかし、特徴量の違いやデータセットの不完全性など、データの不均一性による課題が生じる。本論文では、エージェントが不完全な情報を持ち、隠れた交絡因子へのアクセスが制限されている場合に、部分的に観測可能な文脈バンディットにおける転移学習を研究する。観測されない交絡因子がもたらす課題に対処するため、我々は最適化問題を定式化し、識別不可能な因果効果に関する厳密な境界を導出する。そして、未知分布の関数制約を線形制約に離散化する効率的な方法を提案し、線形プログラムを解く逐次プロセスを通じて適合因果モデルのサンプリングを可能にする。この方法は推定誤差を考慮し、強い収束特性を示し、ロバストで信頼性の高い因果境界を保証する。この因果境界を利用して、古典的なバンディットアルゴリズムを改良し、行動集合と関数空間のサイズに対してより厳しい後悔の上限と下限を達成する。複雑な文脈空間を扱うために重要な関数近似を含むタスクにおいて、我々の手法は、従来の研究と比較して関数空間のサイズへの依存性を大幅に改善する。我々は、因果的に強化されたアルゴリズムが古典的なバンディットアルゴリズムを凌駕し、顕著に速い収束率を達成することを正式に証明する。さらに、本アプローチの適用可能性を、打ち切り需要を持つオフラインの価格政策学習の例を通して説明する。シミュレーションにより、本アプローチが最新の手法よりも優れていることを確認し、特にデータが乏しい、コストが高い、あるいはプライバシーの問題で制限されているような実世界のアプリケーションにおいて、コンテキストバンディットエージェントを強化する可能性を示す。
要約(オリジナル)
Transfer learning has emerged as an effective approach to accelerate learning by integrating knowledge from related source agents. However, challenges arise due to data heterogeneity-such as differences in feature sets or incomplete datasets-which often results in the nonidentifiability of causal effects. In this paper, we investigate transfer learning in partially observable contextual bandits, where agents operate with incomplete information and limited access to hidden confounders. To address the challenges posed by unobserved confounders, we formulate optimization problems to derive tight bounds on the nonidentifiable causal effects. We then propose an efficient method that discretizes the functional constraints of unknown distributions into linear constraints, allowing us to sample compatible causal models through a sequential process of solving linear programs. This method takes into account estimation errors and exhibits strong convergence properties, ensuring robust and reliable causal bounds. Leveraging these causal bounds, we improve classical bandit algorithms, achieving tighter regret upper and lower bounds relative to the sizes of action sets and function spaces. In tasks involving function approximation, which are crucial for handling complex context spaces, our method significantly improves the dependence on function space size compared to previous work. We formally prove that our causally enhanced algorithms outperform classical bandit algorithms, achieving notably faster convergence rates. The applicability of our approach is further illustrated through an example of offline pricing policy learning with censored demand. Simulations confirm the superiority of our approach over state-of-the-art methods, demonstrating its potential to enhance contextual bandit agents in real-world applications, especially when data is scarce, costly, or restricted due to privacy concerns.
arxiv情報
著者 | Xueping Gong,Wei You,Jiheng Zhang |
発行日 | 2025-01-03 18:43:00+00:00 |
arxivサイト | arxiv_id(pdf) |