Multi-Task Reinforcement Learning in Continuous Control with Successor Feature-Based Concurrent Composition

要約

深層強化学習 (DRL) フレームワークは、ロボット工学における高次元の連続制御タスクを解決するためにますます使用されています。
ただし、サンプル効率が不足しているため、オンライン学習に DRL を適用することは、ロボット工学の分野では依然として実質的に不可能です。
理由の 1 つは、DRL エージェントが新しいタスクに対して以前のタスクのソリューションを活用しないことです。
後継機能 (SF) に基づくマルチタスク DRL エージェントに関する最近の研究では、サンプル効率の向上に非常に有望であることが証明されています。
この研究では、SF-GPI と値構成という 2 つの従来のマルチタスク RL フレームワークを統合し、それらを連続制御ドメインに適応させる新しいアプローチを紹介します。
後継機能の構成特性を利用して、新しいポリシーをトレーニングすることなく、一連のプリミティブからポリシー配布を構成します。
最後に、マルチタスク メカニズムを実証するために、大規模な並列化を促進して実験を加速する IsaacGym に基づく概念実証ベンチマーク環境、Pointmass および Pointer を紹介します。
私たちの実験結果は、マルチタスク エージェントがソフト アクター クリティカル (SAC) と同等のシングルタスク パフォーマンスを持ち、エージェントが新しい目に見えないタスクに正常に移行できることを示しています。
私たちはコミュニティの利益のために、「https://github.com/robot-perception-group/concurrent_composition」でコードをオープンソースとして提供しています。

要約(オリジナル)

Deep reinforcement learning (DRL) frameworks are increasingly used to solve high-dimensional continuous control tasks in robotics. However, due to the lack of sample efficiency, applying DRL for online learning is still practically infeasible in the robotics domain. One reason is that DRL agents do not leverage the solution of previous tasks for new tasks. Recent work on multi-task DRL agents based on successor features (SFs) has proven to be quite promising in increasing sample efficiency. In this work, we present a new approach that unifies two prior multi-task RL frameworks, SF-GPI and value composition, and adapts them to the continuous control domain. We exploit compositional properties of successor features to compose a policy distribution from a set of primitives without training any new policy. Lastly, to demonstrate the multi-tasking mechanism, we present our proof-of-concept benchmark environments, Pointmass and Pointer, based on IsaacGym, which facilitates large-scale parallelization to accelerate the experiments. Our experimental results show that our multi-task agent has single-task performance on par with soft actor-critic (SAC), and the agent can successfully transfer to new unseen tasks. We provide our code as open-source at ‘https://github.com/robot-perception-group/concurrent_composition’ for the benefit of the community.

arxiv情報

著者 Yu Tang Liu,Aamir Ahmad
発行日 2024-04-29 13:49:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク