要約
強化学習 (RL) 環境では、トレーニング データの量または機能範囲が限られているため、機能間に誤った相関があるトレーニング データが生成される可能性があります。
これにより、RL エージェントがこれらの誤解を招く相関を潜在表現でエンコードする可能性があり、環境内または現実世界に展開されたときに相関が変化した場合にエージェントが一般化できなくなる可能性があります。
もつれを解く表現はロバスト性を向上させることができますが、特徴間の相互情報を最小限に抑える既存のもつれを解く手法では独立した特徴が必要となるため、相関関係のある特徴を解きほぐすことはできません。
我々は、表現内の特徴間の条件付き相互情報を最小限に抑えることによって、相関した特徴を持つ高次元観測のもつれ解除表現を学習する RL アルゴリズムの補助タスクを提案します。
私たちは、連続制御タスクを使用して、私たちのアプローチが相関シフトの下での汎化を改善し、相関のある特徴の存在下でのRLアルゴリズムのトレーニングパフォーマンスを改善することを実験的に実証します。
要約(オリジナル)
Reinforcement Learning (RL) environments can produce training data with spurious correlations between features due to the amount of training data or its limited feature coverage. This can lead to RL agents encoding these misleading correlations in their latent representation, preventing the agent from generalising if the correlation changes within the environment or when deployed in the real world. Disentangled representations can improve robustness, but existing disentanglement techniques that minimise mutual information between features require independent features, thus they cannot disentangle correlated features. We propose an auxiliary task for RL algorithms that learns a disentangled representation of high-dimensional observations with correlated features by minimising the conditional mutual information between features in the representation. We demonstrate experimentally, using continuous control tasks, that our approach improves generalisation under correlation shifts, as well as improving the training performance of RL algorithms in the presence of correlated features.
arxiv情報
著者 | Mhairi Dunion,Trevor McInroe,Kevin Sebastian Luck,Josiah P. Hanna,Stefano V. Albrecht |
発行日 | 2023-05-23 14:56:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google