Reinforcement Learning from Wild Animal Videos

要約

私たちは、自然ドキュメンタリーで特集されているものなど、インターネットから何千もの野生動物のビデオを見て、脚式ロボットの移動スキルを学ぶことを提案します。
実際、そのようなビデオは、ロボットがどのように動くべきかを知らせる可能性のある、もっともらしい動作例の豊富で多様なコレクションを提供します。
これを達成するために、これらの動きを物理的なロボットに定着させる方法である、野生動物ビデオからの強化学習 (RLWAV) を導入します。
まず、大規模な動物のビデオ データセットでビデオ分類器をトレーニングし、自然の生息地にいる動物の RGB クリップからのアクションを認識します。
次に、強化学習の報酬としてロボットの動きのビデオをキャプチャした三人称カメラの分類スコアを使用して、物理シミュレーターでロボットを制御するためのマルチスキル ポリシーをトレーニングします。
最後に、学習したポリシーを実際の四足歩行の Solo に直接転送します。
注目すべきことに、野生の動物とロボットの間には領域と具体化の両方において極端なギャップがあるにもかかわらず、私たちのアプローチにより、基準軌道やスキル固有の報酬に依存することなく、歩く、ジャンプする、静止するなどの多様なスキルを学習することが可能になります。

要約(オリジナル)

We propose to learn legged robot locomotion skills by watching thousands of wild animal videos from the internet, such as those featured in nature documentaries. Indeed, such videos offer a rich and diverse collection of plausible motion examples, which could inform how robots should move. To achieve this, we introduce Reinforcement Learning from Wild Animal Videos (RLWAV), a method to ground these motions into physical robots. We first train a video classifier on a large-scale animal video dataset to recognize actions from RGB clips of animals in their natural habitats. We then train a multi-skill policy to control a robot in a physics simulator, using the classification score of a third-person camera capturing videos of the robot’s movements as a reward for reinforcement learning. Finally, we directly transfer the learned policy to a real quadruped Solo. Remarkably, despite the extreme gap in both domain and embodiment between animals in the wild and robots, our approach enables the policy to learn diverse skills such as walking, jumping, and keeping still, without relying on reference trajectories nor skill-specific rewards.

arxiv情報

著者 Elliot Chane-Sane,Constant Roux,Olivier Stasse,Nicolas Mansard
発行日 2024-12-05 15:55:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク