Latent Action Priors From a Single Gait Cycle Demonstration for Online Imitation Learning

要約

シミュレーションにおける深層強化学習(Deep Reinforcement Learning: DRL)は、しばしば脆く非現実的な学習結果をもたらします。エージェントをより望ましい解に向かわせるために、例えば、報酬シェーピング、専門家データ、またはモーションプリミティブを通して、事前情報を学習プロセスに注入することができる。我々は、ロボット学習のための付加的な帰納的バイアスを提案する。それは、行動空間における事前情報として、専門家のデモンストレーションから学習された潜在的行動である。我々は、これらの行動事前分布を、単純なオートエンコーダを用いて、たった1回のオープンループ歩行サイクルから学習できることを示す。この潜在的行動事前分布をDRLにおける模倣のための確立されたスタイル報酬と組み合わせることで、専門家の実演レベルを上回るパフォーマンスを達成し、より望ましい歩容を導きます。さらに、行動事前分布を用いることで、移乗タスクのパフォーマンスが大幅に向上し、より高い目標速度での歩容遷移も可能になる。動画とコードはhttps://sites.google.com/view/latent-action-priors。

要約(オリジナル)

Deep Reinforcement Learning (DRL) in simulation often results in brittle and unrealistic learning outcomes. To push the agent towards more desirable solutions, prior information can be injected in the learning process through, for instance, reward shaping, expert data, or motion primitives. We propose an additional inductive bias for robot learning: latent actions learned from expert demonstration as priors in the action space. We show that these action priors can be learned from only a single open-loop gait cycle using a simple autoencoder. Using these latent action priors combined with established style rewards for imitation in DRL achieves above expert demonstration level of performance and leads to more desirable gaits. Further, action priors substantially improve the performance on transfer tasks, even leading to gait transitions for higher target speeds. Videos and code are available at https://sites.google.com/view/latent-action-priors.

arxiv情報

著者 Oliver Hausdörfer,Alexander von Rohr,Éric Lefort,Angela Schoellig
発行日 2024-10-04 09:10:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.RO パーマリンク