要約
因果的混乱は、データ内の不完全な偽の相関を反映するポリシーをエージェントが学習する現象です。
ほとんどのトレーニング データにそのような偽の相関が含まれている場合、そのようなポリシーはトレーニング中に誤って最適であるように見える可能性があります。
この現象は、エージェントの開ループ パフォーマンスと閉ループ パフォーマンスの間に潜在的に大きなギャップがあるロボット工学などの分野で特に顕著です。
このような設定では、因果的に混乱したモデルは、トレーニング中に開ループ メトリクスに従ってうまく機能しているように見えても、現実世界に展開すると壊滅的に失敗する可能性があります。
この論文では、オフライン強化学習における因果的混乱について研究します。
私たちは、デモンストレーションのデータセットから適切なポイントを選択的にサンプリングすることで、オフライン強化学習エージェントが環境の根底にある因果メカニズムを明確にし、オフライン強化学習における因果の混乱を軽減し、展開のためのより安全なモデルを生成できるかどうかを調査します。
この質問に答えるために、因果の曖昧さを示す一連の調整されたオフライン強化学習データセットを検討し、評価時の因果の混乱を軽減するアクティブ サンプリング手法の能力を評価します。
私たちは、均一でアクティブなサンプリング手法がトレーニングの進行に応じて因果関係の混乱を一貫して軽減できること、およびアクティブ サンプリングが均一なサンプリングよりも大幅に効率的にそれを行うことができるという経験的証拠を提供します。
要約(オリジナル)
Causal confusion is a phenomenon where an agent learns a policy that reflects imperfect spurious correlations in the data. Such a policy may falsely appear to be optimal during training if most of the training data contain such spurious correlations. This phenomenon is particularly pronounced in domains such as robotics, with potentially large gaps between the open- and closed-loop performance of an agent. In such settings, causally confused models may appear to perform well according to open-loop metrics during training but fail catastrophically when deployed in the real world. In this paper, we study causal confusion in offline reinforcement learning. We investigate whether selectively sampling appropriate points from a dataset of demonstrations may enable offline reinforcement learning agents to disambiguate the underlying causal mechanisms of the environment, alleviate causal confusion in offline reinforcement learning, and produce a safer model for deployment. To answer this question, we consider a set of tailored offline reinforcement learning datasets that exhibit causal ambiguity and assess the ability of active sampling techniques to reduce causal confusion at evaluation. We provide empirical evidence that uniform and active sampling techniques are able to consistently reduce causal confusion as training progresses and that active sampling is able to do so significantly more efficiently than uniform sampling.
arxiv情報
著者 | Gunshi Gupta,Tim G. J. Rudner,Rowan Thomas McAllister,Adrien Gaidon,Yarin Gal |
発行日 | 2023-12-28 17:54:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google