要約
ポリシー学習は、現実世界の多くの学習システムの重要なコンポーネントです。
政策学習における大きな課題は、目に見えない環境やタスクにどのように効率的に適応するかということです。
最近、不変の条件付き分布を利用して、目に見えない環境に対してより適切に一般化するモデルを学習することが提案されています。
ただし、条件付き分布全体が不変であると仮定する (これを完全不変と呼びます) ことは、実際には強すぎる仮定である可能性があります。
この論文では、効果不変性 (略して e-不変性) と呼ばれる完全不変性の緩和を導入し、適切な仮定の下でゼロショット ポリシーの一般化には十分であることを証明します。
また、テスト環境からの小さなサンプルがある場合に電子不変性を活用し、少数ショットのポリシーの一般化を可能にする拡張機能についても説明します。
私たちの研究は、基礎となる因果グラフやデータが構造的因果モデルによって生成されることを前提としていません。
代わりに、データから直接電子不変性をテストするテスト手順を開発します。
私たちは、シミュレーションデータとモバイルヘルス介入データセットを使用した経験的結果を提示し、アプローチの有効性を実証します。
要約(オリジナル)
Policy learning is an important component of many real-world learning systems. A major challenge in policy learning is how to adapt efficiently to unseen environments or tasks. Recently, it has been suggested to exploit invariant conditional distributions to learn models that generalize better to unseen environments. However, assuming invariance of entire conditional distributions (which we call full invariance) may be too strong of an assumption in practice. In this paper, we introduce a relaxation of full invariance called effect-invariance (e-invariance for short) and prove that it is sufficient, under suitable assumptions, for zero-shot policy generalization. We also discuss an extension that exploits e-invariance when we have a small sample from the test environment, enabling few-shot policy generalization. Our work does not assume an underlying causal graph or that the data are generated by a structural causal model; instead, we develop testing procedures to test e-invariance directly from data. We present empirical results using simulated data and a mobile health intervention dataset to demonstrate the effectiveness of our approach.
arxiv情報
著者 | Sorawit Saengkyongam,Niklas Pfister,Predrag Klasnja,Susan Murphy,Jonas Peters |
発行日 | 2023-06-27 16:09:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google