Towards Learning to Imitate from a Single Video Demonstration

要約

与えられたビデオ観察を模倣することを学習できるエージェント — \emph{状態や行動の情報に直接アクセスすることなく} は、自然界での学習により適しています。
ただし、この目標を促進する強化学習 (RL) エージェントを定式化することは依然として大きな課題です。
私たちは、エージェントの行動を単一のデモンストレーションと比較して報酬関数を学習する対照的なトレーニングを使用してこの課題に取り組みます。
シャムリカレントニューラルネットワークアーキテクチャを使用して、モーションクリップ間の空間と時間の報酬を学習しながら、この距離を最小限に抑えるようにRLポリシーをトレーニングします。
実験を通じて、マルチタスク データと追加の画像エンコード損失を含めることで、学習された報酬の時間的一貫性が向上し、その結果、ポリシー学習が大幅に向上することもわかりました。
2D ではシミュレートされたヒューマノイド、犬、猛禽エージェント、3D では四足動物とヒューマノイドのエージェントに対するアプローチを示します。
私たちは、これらの環境において私たちの手法が現在の最先端技術を上回り、単一のビデオデモンストレーションから模倣できることを示します。

要約(オリジナル)

Agents that can learn to imitate given video observation — \emph{without direct access to state or action information} are more applicable to learning in the natural world. However, formulating a reinforcement learning (RL) agent that facilitates this goal remains a significant challenge. We approach this challenge using contrastive training to learn a reward function comparing an agent’s behaviour with a single demonstration. We use a Siamese recurrent neural network architecture to learn rewards in space and time between motion clips while training an RL policy to minimize this distance. Through experimentation, we also find that the inclusion of multi-task data and additional image encoding losses improve the temporal consistency of the learned rewards and, as a result, significantly improves policy learning. We demonstrate our approach on simulated humanoid, dog, and raptor agents in 2D and a quadruped and a humanoid in 3D. We show that our method outperforms current state-of-the-art techniques in these environments and can learn to imitate from a single video demonstration.

arxiv情報

著者 Glen Berseth,Florian Golemo,Christopher Pal
発行日 2023-07-12 19:04:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, stat.ML パーマリンク