要約
我々は、カジュアルな縦断ビデオコレクションから 3D エージェントのインタラクティブな行動モデルを学習するためのフレームワークである Agent-to-Sim (ATS) を紹介します。
マーカーベースの追跡や多視点カメラに依存するこれまでの研究とは異なり、ATS は、単一環境で長期間 (1 か月など) にわたって記録されたビデオ観察を通じて、動物と人間のエージェントの自然な行動を非侵襲的に学習します。
エージェントの 3D 動作をモデル化するには、長期間にわたる持続的な 3D 追跡 (たとえば、どの点がどの点に対応するかを知る) が必要です。
このようなデータを取得するために、標準 3D 空間を通じてエージェントとカメラを時間の経過とともに追跡する、粗いから細かいまでの位置合わせ方法を開発し、その結果、完全で永続的な時空 4D 表現が得られます。
次に、4D 再構成からクエリされたエージェントの知覚と動作のペアのデータを使用して、エージェントの行動の生成モデルをトレーニングします。
ATS により、エージェントのビデオ録画から対話型行動シミュレーターへのリアルからシムへの転送が可能になります。
ペット (猫、犬、ウサギなど) と人間のスマートフォンで撮影した単眼 RGBD ビデオの結果を示します。
要約(オリジナル)
We present Agent-to-Sim (ATS), a framework for learning interactive behavior models of 3D agents from casual longitudinal video collections. Different from prior works that rely on marker-based tracking and multiview cameras, ATS learns natural behaviors of animal and human agents non-invasively through video observations recorded over a long time-span (e.g., a month) in a single environment. Modeling 3D behavior of an agent requires persistent 3D tracking (e.g., knowing which point corresponds to which) over a long time period. To obtain such data, we develop a coarse-to-fine registration method that tracks the agent and the camera over time through a canonical 3D space, resulting in a complete and persistent spacetime 4D representation. We then train a generative model of agent behaviors using paired data of perception and motion of an agent queried from the 4D reconstruction. ATS enables real-to-sim transfer from video recordings of an agent to an interactive behavior simulator. We demonstrate results on pets (e.g., cat, dog, bunny) and human given monocular RGBD videos captured by a smartphone.
arxiv情報
著者 | Gengshan Yang,Andrea Bajcsy,Shunsuke Saito,Angjoo Kanazawa |
発行日 | 2024-10-21 17:57:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google