Multi-Task Reinforcement Learning in Continuous Control with Successor Feature-Based Concurrent Composition

要約

深層強化学習 (DRL) フレームワークは、ロボット工学における高次元の連続制御タスクを解決するためにますます使用されています。
ただし、サンプルの効率が悪いため、オンライン学習に DRL を適用することは、ロボット工学の分野ではまだ事実上​​実行不可能です。
その理由の 1 つは、DRL エージェントが以前のタスクのソリューションを新しいタスクに活用しないことです。
後継機能に基づくマルチタスク DRL エージェントに関する最近の研究は、サンプル効率の向上に非常に有望であることが証明されています。
この作業では、継続的な制御ドメインのために、SF-GPI と値合成という 2 つの以前のマルチタスク RL フレームワークを統合する新しいアプローチを提示します。
新しいポリシーをトレーニングすることなく、一連のプリミティブからポリシー配布を構成するために、後継機能の構成プロパティを利用します。
最後に、マルチタスク メカニズムを実証するために、Raisim に基づくマルチタスク連続制御環境の新しいベンチマークを提示します。
これにより、実験を加速するための大規模な並列化も容易になります。
Pointmass 環境での実験結果は、マルチタスク エージェントがソフト アクター 批評家 (SAC) と同等の単一タスク パフォーマンスを持ち、エージェントが SAC が失敗した新しい目に見えないタスクに正常に移行できることを示しています。
コミュニティの利益のために、https://github.com/robot-perception-group/concurrent_composition でコードをオープンソースとして提供しています。

要約(オリジナル)

Deep reinforcement learning (DRL) frameworks are increasingly used to solve high-dimensional continuous-control tasks in robotics. However, due to the lack of sample efficiency, applying DRL for online learning is still practically infeasible in the robotics domain. One reason is that DRL agents do not leverage the solution of previous tasks for new tasks. Recent work on multi-tasking DRL agents based on successor features has proven to be quite promising in increasing sample efficiency. In this work, we present a new approach that unifies two prior multi-task RL frameworks, SF-GPI and value composition, for the continuous control domain. We exploit compositional properties of successor features to compose a policy distribution from a set of primitives without training any new policy. Lastly, to demonstrate the multi-tasking mechanism, we present a new benchmark for multi-task continuous control environment based on Raisim. This also facilitates large-scale parallelization to accelerate the experiments. Our experimental results in the Pointmass environment show that our multi-task agent has single task performance on par with soft actor critic (SAC) and the agent can successfully transfer to new unseen tasks where SAC fails. We provide our code as open-source at https://github.com/robot-perception-group/concurrent_composition for the benefit of the community.

arxiv情報

著者 Yu Tang Liu,Aamir Ahmad
発行日 2023-03-24 11:45:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク