A Unifying Framework for Causal Imitation Learning with Hidden Confounders

要約

文献からいくつかの既存の混乱したIL設定を包含する隠された交絡因子を使用して、因果模倣学習(IL)の一般的かつ統一されたフレームワークを提案します。
私たちのフレームワークは、2種類の隠された交絡因子を説明しています:(a)専門家の方針に影響を与える専門家によって観察されたもの、および(b)専門家とILアルゴリズムの両方に隠された交絡騒音。
柔軟性をさらに高めるために、交絡ノイズホライズンと時間変化の専門家に夢中になる隠された変数も導入します。
私たちのフレームワークの因果ILは、歴史依存のポリシーを学ぶための手段として軌道履歴を活用することにより、一連の条件付きモーメント制限(CMR)に減らすことができることを示しています。
DML-ILを提案します。これは、これらのCMRを解決してポリシーを学ぶために、機器変数回帰を使用する新しいアルゴリズムです。
DML-ILの模倣ギャップにバウンドを提供します。これは、以前の結果を特別なケースとして回復します。
継続的な状態アクションスペースと複数のムホコタスクを備えた玩具環境に関する経験的評価は、DML-ILが最先端の因果関係のILアルゴリズムを上回ることを示しています。

要約(オリジナル)

We propose a general and unifying framework for causal Imitation Learning (IL) with hidden confounders that subsumes several existing confounded IL settings from the literature. Our framework accounts for two types of hidden confounders: (a) those observed by the expert, which thus influence the expert’s policy, and (b) confounding noise hidden to both the expert and the IL algorithm. For additional flexibility, we also introduce a confounding noise horizon and time-varying expert-observable hidden variables. We show that causal IL in our framework can be reduced to a set of Conditional Moment Restrictions (CMRs) by leveraging trajectory histories as instruments to learn a history-dependent policy. We propose DML-IL, a novel algorithm that uses instrumental variable regression to solve these CMRs and learn a policy. We provide a bound on the imitation gap for DML-IL, which recovers prior results as special cases. Empirical evaluation on a toy environment with continues state-action spaces and multiple Mujoco tasks demonstrate that DML-IL outperforms state-of-the-art causal IL algorithms.

arxiv情報

著者 Daqian Shao,Thomas Kleine Buening,Marta Kwiatkowska
発行日 2025-02-11 15:43:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク