要約
強化学習 (RL) エージェントは、多くの場合、トレーニング中に観察されなかった状態空間の環境変動をうまく一般化できません。
この問題は、背景色などの 1 つの変数だけを変更すると、画像内の多くのピクセルが変更される可能性がある画像ベースの RL で特に問題になります。
変更されたピクセルは、エージェントのイメージの潜在的な表現に劇的な変化をもたらし、学習したポリシーが失敗する可能性があります。
より堅牢な表現を学習するために、TEmporal Disentanglement (TED) を導入します。これは、RL 観測のシーケンシャルな性質を利用して、もつれを解かれた画像表現につながる自己教師付き補助タスクです。
TED を補助タスクとして利用する RL アルゴリズムは、最先端の表現学習方法と比較して、継続的なトレーニングにより環境変数の変化により迅速に適応することが経験的にわかっています。
TED は表現の絡み合っていない構造を強制するため、TED でトレーニングされたポリシーは、タスクに関係のない変数の目に見えない値 (背景色など) や、最適なポリシーに影響を与える変数の目に見えない値 (ゴール
ポジション)。
要約(オリジナル)
Reinforcement Learning (RL) agents are often unable to generalise well to environment variations in the state space that were not observed during training. This issue is especially problematic for image-based RL, where a change in just one variable, such as the background colour, can change many pixels in the image. The changed pixels can lead to drastic changes in the agent’s latent representation of the image, causing the learned policy to fail. To learn more robust representations, we introduce TEmporal Disentanglement (TED), a self-supervised auxiliary task that leads to disentangled image representations exploiting the sequential nature of RL observations. We find empirically that RL algorithms utilising TED as an auxiliary task adapt more quickly to changes in environment variables with continued training compared to state-of-the-art representation learning methods. Since TED enforces a disentangled structure of the representation, our experiments also show that policies trained with TED generalise better to unseen values of variables irrelevant to the task (e.g. background colour) as well as unseen values of variables that affect the optimal policy (e.g. goal positions).
arxiv情報
著者 | Mhairi Dunion,Trevor McInroe,Kevin Sebastian Luck,Josiah P. Hanna,Stefano V. Albrecht |
発行日 | 2023-02-27 16:25:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google