SLoMo: A General System for Legged Robot Motion Imitation from Casual Videos

要約

私たちは SLoMo を紹介します。SLoMo は、何気なく撮影された人間や動物の「野生の」ビデオ映像から、熟練した動作を脚付きロボットに転送するための、この種では初めてのフレームワークです。
SLoMo は 3 つの段階で機能します。1) 単眼ビデオから物理的に妥当な再構成されたキーポイント軌道を合成します。
2) 身体と足の動き、およびキーポイントを厳密に追跡する接触シーケンスを含む、ロボットの動的に実行可能な基準軌道をオフラインで最適化します。
3) ロボット ハードウェア上の汎用モデル予測コントローラーを使用して、オンラインで基準軌道を追跡します。
脚の運動スキルのための従来のモーション模倣には、多くの場合、専門のアニメーター、共同デモンストレーション、および/または高価なモーション キャプチャ機器が必要ですが、これらすべてが拡張性を制限します。
代わりに、SLoMo は、YouTube などのオンライン リポジトリですぐに入手できる、入手が容易な単眼ビデオ映像のみに依存しています。
ビデオを、現実世界のロボットで確実に実行できるモーション プリミティブに変換します。
猫、犬、人間の動きを、四足動物 (ハードウェア上) やヒューマノイド (シミュレーション内) などのサンプル ロボットに転送することで、アプローチを実証します。
著者の知る限り、これは、人為的なマーカーやラベルを使用せずに、脚付きロボット上の動物や人間の動きをカジュアルなビデオから直接模倣する汎用モーション転送フレームワークの最初の試みです。

要約(オリジナル)

We present SLoMo: a first-of-its-kind framework for transferring skilled motions from casually captured ‘in the wild’ video footage of humans and animals to legged robots. SLoMo works in three stages: 1) synthesize a physically plausible reconstructed key-point trajectory from monocular videos; 2) optimize a dynamically feasible reference trajectory for the robot offline that includes body and foot motion, as well as contact sequences that closely tracks the key points; 3) track the reference trajectory online using a general-purpose model-predictive controller on robot hardware. Traditional motion imitation for legged motor skills often requires expert animators, collaborative demonstrations, and/or expensive motion capture equipment, all of which limits scalability. Instead, SLoMo only relies on easy-to-obtain monocular video footage, readily available in online repositories such as YouTube. It converts videos into motion primitives that can be executed reliably by real-world robots. We demonstrate our approach by transferring the motions of cats, dogs, and humans to example robots including a quadruped (on hardware) and a humanoid (in simulation). To the best knowledge of the authors, this is the first attempt at a general-purpose motion transfer framework that imitates animal and human motions on legged robots directly from casual videos without artificial markers or labels.

arxiv情報

著者 John Z. Zhang,Shuo Yang,Gengshan Yang,Arun L. Bishop,Deva Ramanan,Zachary Manchester
発行日 2023-09-05 13:45:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク