Agent-to-Sim: Learning Interactive Behavior Models from Casual Longitudinal Videos

要約

我々は、カジュアルな縦断ビデオコレクションから 3D エージェントのインタラクティブな行動モデルを学習するためのフレームワークである Agent-to-Sim (ATS) を紹介します。
マーカーベースの追跡や多視点カメラに依存するこれまでの研究とは異なり、ATS は、単一環境で長期間 (1 か月など) にわたって記録されたビデオ観察を通じて、動物と人間のエージェントの自然な行動を非侵襲的に学習します。
エージェントの 3D 動作をモデル化するには、長期間にわたる持続的な 3D 追跡 (たとえば、どの点がどの点に対応するかを知る) が必要です。
このようなデータを取得するために、標準 3D 空間を通じてエージェントとカメラを時間の経過とともに追跡する、粗いから細かいまでの位置合わせ方法を開発し、その結果、完全で永続的な時空 4D 表現が得られます。
次に、4D 再構成からクエリされたエージェントの知覚と動作のペアのデータを使用して、エージェントの行動の生成モデルをトレーニングします。
ATS により、エージェントのビデオ録画から対話型行動シミュレーターへのリアルからシムへの転送が可能になります。
ペット (猫、犬、ウサギなど) と人間のスマートフォンで撮影した単眼 RGBD ビデオの結果を示します。

要約(オリジナル)

We present Agent-to-Sim (ATS), a framework for learning interactive behavior models of 3D agents from casual longitudinal video collections. Different from prior works that rely on marker-based tracking and multiview cameras, ATS learns natural behaviors of animal and human agents non-invasively through video observations recorded over a long time-span (e.g., a month) in a single environment. Modeling 3D behavior of an agent requires persistent 3D tracking (e.g., knowing which point corresponds to which) over a long time period. To obtain such data, we develop a coarse-to-fine registration method that tracks the agent and the camera over time through a canonical 3D space, resulting in a complete and persistent spacetime 4D representation. We then train a generative model of agent behaviors using paired data of perception and motion of an agent queried from the 4D reconstruction. ATS enables real-to-sim transfer from video recordings of an agent to an interactive behavior simulator. We demonstrate results on pets (e.g., cat, dog, bunny) and human given monocular RGBD videos captured by a smartphone.

arxiv情報

著者 Gengshan Yang,Andrea Bajcsy,Shunsuke Saito,Angjoo Kanazawa
発行日 2024-10-21 17:57:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.RO パーマリンク