要約
この論文は、新しいスキルを学習する際にスキルを適応させる人間の能力に動機付けられ、既存のポリシーの潜在空間を変更して、ゼロから学習する場合と比較して、同様のタスクから新しい行動を迅速に学習できるようにするアプローチである AdaptNet を紹介します。
特定の強化学習コントローラーの上に構築された AdaptNet は、元の状態の埋め込みを強化する 2 層の階層を使用して、動作のわずかな変更をサポートし、ポリシー ネットワーク層をさらに変更して、より実質的な変更を加えます。
この技術は、既存の物理ベースのコントローラーを、移動、新しいタスクのターゲット、キャラクターの形態の変化、環境の広範な変化など、幅広い新しいスタイルに適応させるのに効果的であることが示されています。
さらに、ゼロからトレーニングする場合や既存のポリシーを変更する他のアプローチを使用する場合と比較して、トレーニング時間が大幅に短縮されることからもわかるように、学習効率が大幅に向上します。
コードは https://motion-lab.github.io/AdaptNet で入手できます。
要約(オリジナル)
Motivated by humans’ ability to adapt skills in the learning of new ones, this paper presents AdaptNet, an approach for modifying the latent space of existing policies to allow new behaviors to be quickly learned from like tasks in comparison to learning from scratch. Building on top of a given reinforcement learning controller, AdaptNet uses a two-tier hierarchy that augments the original state embedding to support modest changes in a behavior and further modifies the policy network layers to make more substantive changes. The technique is shown to be effective for adapting existing physics-based controllers to a wide range of new styles for locomotion, new task targets, changes in character morphology and extensive changes in environment. Furthermore, it exhibits significant increase in learning efficiency, as indicated by greatly reduced training times when compared to training from scratch or using other approaches that modify existing policies. Code is available at https://motion-lab.github.io/AdaptNet.
arxiv情報
| 著者 | Pei Xu,Kaixiang Xie,Sheldon Andrews,Paul G. Kry,Michael Neff,Morgan McGuire,Ioannis Karamouzas,Victor Zordan |
| 発行日 | 2023-10-09 15:23:38+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google