要約
メタ強化学習 (Meta-RL) により、新しいテスト タスクへの迅速な適応が可能になります。
最近の進歩にもかかわらず、複数の複雑で高次元のタスクにわたってパフォーマンスの高いポリシーを学習することは依然として困難です。
これに対処するために、1) タスク表現の学習、2) 自動化された方法でのタスクに依存しないマクロアクションの発見、3) プリミティブアクションの学習のための 3 つの階層レベルを持つ新しいアーキテクチャを提案します。
マクロアクションは、低レベルのプリミティブポリシー学習をガイドして、より効率的に目標状態に移行することができます。
これにより、ポリシーが新しい競合するタスクを学習するときに以前に学習した動作を忘れてしまう可能性があるという問題に対処できます。
さらに、マクロアクションのタスクに依存しない性質は、状態空間からタスク固有のコンポーネントを削除することによって有効になります。
したがって、これにより、異なるタスク間で再構成することが容易になり、新しいタスクへの迅速な適応が期待できます。
また、3 レベルの階層による将来の不安定性は、当社の革新的で独自に調整されたトレーニング スキームによって効果的に軽減されます。
MetaWorld フレームワークでの実験では、以前の最先端の方法と比較して、私たちのアプローチのサンプル効率と成功率が向上していることが実証されています。
要約(オリジナル)
Meta-Reinforcement Learning (Meta-RL) enables fast adaptation to new testing tasks. Despite recent advancements, it is still challenging to learn performant policies across multiple complex and high-dimensional tasks. To address this, we propose a novel architecture with three hierarchical levels for 1) learning task representations, 2) discovering task-agnostic macro-actions in an automated manner, and 3) learning primitive actions. The macro-action can guide the low-level primitive policy learning to more efficiently transition to goal states. This can address the issue that the policy may forget previously learned behavior while learning new, conflicting tasks. Moreover, the task-agnostic nature of the macro-actions is enabled by removing task-specific components from the state space. Hence, this makes them amenable to re-composition across different tasks and leads to promising fast adaptation to new tasks. Also, the prospective instability from the tri-level hierarchies is effectively mitigated by our innovative, independently tailored training schemes. Experiments in the MetaWorld framework demonstrate the improved sample efficiency and success rate of our approach compared to previous state-of-the-art methods.
arxiv情報
著者 | Minjae Cho,Chuangchuang Sun |
発行日 | 2024-12-16 16:15:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google