要約
模倣学習は因果関係の混乱に悩まされる。この現象は、学習された方針が、専門家の行動に因果的に影響しない特徴に注意を向け、代わりにスプリアスに相関する場合に発生する。原因混同を起こしたエージェントは、オープンループでの監視損失は少ないが、クローズドループでの性能は低い。我々は、観測空間の分離された表現において、観測された交絡因子をマスキングする問題を考察する。我々の新しいマスキングアルゴリズムは、初期システム状態に介入する通常の能力を活用し、専門家による問い合わせ、専門家による報酬関数、因果グラフの指定に関わる要件を回避する。ある仮定の下で、我々はこのアルゴリズムが、エキスパートに因果的に影響を与える観測を誤ってマスキングしないという意味で、保守的であることを理論的に証明する。さらに、初期状態に介入することで、過剰な保守性を厳密に減少させることができる。このマスキングアルゴリズムを、2つの例示的な制御システムの動作クローニングに適用する:CartPoleとReacherである。
要約(オリジナル)
Imitation learning suffers from causal confusion. This phenomenon occurs when learned policies attend to features that do not causally influence the expert actions but are instead spuriously correlated. Causally confused agents produce low open-loop supervised loss but poor closed-loop performance upon deployment. We consider the problem of masking observed confounders in a disentangled representation of the observation space. Our novel masking algorithm leverages the usual ability to intervene in the initial system state, avoiding any requirement involving expert querying, expert reward functions, or causal graph specification. Under certain assumptions, we theoretically prove that this algorithm is conservative in the sense that it does not incorrectly mask observations that causally influence the expert; furthermore, intervening on the initial state serves to strictly reduce excess conservatism. The masking algorithm is applied to behavior cloning for two illustrative control systems: CartPole and Reacher.
arxiv情報
| 著者 | Samuel Pfrommer,Yatong Bai,Hyunin Lee,Somayeh Sojoudi | 
| 発行日 | 2023-08-04 12:46:33+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
