要約
モデルベース強化学習 (MBRL) の最近の進歩により、MBRL は視覚的な制御タスクのための強力なツールになりました。
データ効率が向上したにもかかわらず、一般化可能な認識を備えた MBRL エージェントをトレーニングすることは依然として困難です。
視覚的な気を散らすものが存在する場合のトレーニングは、視覚的なものが表現学習に大きな変動をもたらすため、特に困難です。
人気のある MBRL 手法である DREAMER に基づいて、気が散る環境での表現学習を促進するためのシンプルかつ効果的な補助タスクを提案します。
画像観察のタスク関連コンポーネントは、特定のタスクの事前知識によって簡単に識別できるという仮定の下、画像観察にセグメンテーション マスクを使用して、タスク関連コンポーネントのみを再構成します。
そうすることで、タスクに関係のないオブジェクトを潜在表現でエンコードする必要がなくなり、表現学習の複雑さが大幅に軽減されます。
私たちの手法であるセグメンテーション ドリーマー (SD) は、シミュレーションで簡単にアクセスできるグラウンドトゥルース マスクとともに使用することも、不完全な可能性があるセグメンテーション基礎モデルを活用することによっても使用できます。
後者は、マスク予測誤差による誤解を招く学習信号の提供を避けるために、再構成損失を選択的に適用することによってさらに改善されます。
修正された DeepMind Control Suite (DMC) および視覚的な注意をそらすメタワールド タスクでは、SD は以前の作業よりも大幅に優れたサンプル効率と優れた最終パフォーマンスを達成しました。
SD は、以前の研究では解決できなかった、報酬がまばらなタスクに特に役立ち、広範な報酬エンジニアリングを必要とせずに視覚的に堅牢なエージェントのトレーニングを可能にすることがわかりました。
要約(オリジナル)
Recent advancements in Model-Based Reinforcement Learning (MBRL) have made it a powerful tool for visual control tasks. Despite improved data efficiency, it remains challenging to train MBRL agents with generalizable perception. Training in the presence of visual distractions is particularly difficult due to the high variation they introduce to representation learning. Building on DREAMER, a popular MBRL method, we propose a simple yet effective auxiliary task to facilitate representation learning in distracting environments. Under the assumption that task-relevant components of image observations are straightforward to identify with prior knowledge in a given task, we use a segmentation mask on image observations to only reconstruct task-relevant components. In doing so, we greatly reduce the complexity of representation learning by removing the need to encode task-irrelevant objects in the latent representation. Our method, Segmentation Dreamer (SD), can be used either with ground-truth masks easily accessible in simulation or by leveraging potentially imperfect segmentation foundation models. The latter is further improved by selectively applying the reconstruction loss to avoid providing misleading learning signals due to mask prediction errors. In modified DeepMind Control suite (DMC) and Meta-World tasks with added visual distractions, SD achieves significantly better sample efficiency and greater final performance than prior work. We find that SD is especially helpful in sparse reward tasks otherwise unsolvable by prior work, enabling the training of visually robust agents without the need for extensive reward engineering.
arxiv情報
著者 | Kyungmin Kim,JB Lanier,Pierre Baldi,Charless Fowlkes,Roy Fox |
発行日 | 2024-10-13 19:24:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google