要約
私たちは、ビデオから 3D 構造とカメラの位置を再構築するという長年の課題に取り組みます。
この問題は、オブジェクトが非剛体的な方法で変換される場合に特に困難になります。
この問題に対する現在のアプローチは、非現実的な仮定を立てているか、長い最適化時間を必要としています。
我々は、疎ポイントトラック行列上の単一フィードフォワードパスを使用して、実際のビデオから生成された動的コンテンツから 3D 構造とカメラ位置を推測できる、新しい深層学習ベースのアプローチである TracksTo4D を紹介します。
これを達成するために、2D ポイント トラッキングの最近の進歩を活用し、対称性を利用して 2D ポイント トラックを直接処理するように調整された等変ニューラル アーキテクチャを設計します。
TracksTo4D は、3D 監視なしで、ビデオから抽出された 2D ポイント トラックのみを利用して、野生のビデオのデータセットでトレーニングされます。
私たちの実験では、TracksTo4D が推論時に未見のセマンティック カテゴリの未見のビデオをうまく一般化し、他のベースラインと比較して実行時間を大幅に短縮しながら、最先端の方法と同等の結果を生成することを示しています。
要約(オリジナル)
We tackle the long-standing challenge of reconstructing 3D structures and camera positions from videos. The problem is particularly hard when objects are transformed in a non-rigid way. Current approaches to this problem make unrealistic assumptions or require a long optimization time. We present TracksTo4D, a novel deep learning-based approach that enables inferring 3D structure and camera positions from dynamic content originating from in-the-wild videos using a single feed-forward pass on a sparse point track matrix. To achieve this, we leverage recent advances in 2D point tracking and design an equivariant neural architecture tailored for directly processing 2D point tracks by leveraging their symmetries. TracksTo4D is trained on a dataset of in-the-wild videos utilizing only the 2D point tracks extracted from the videos, without any 3D supervision. Our experiments demonstrate that TracksTo4D generalizes well to unseen videos of unseen semantic categories at inference time, producing equivalent results to state-of-the-art methods while significantly reducing the runtime compared to other baselines.
arxiv情報
著者 | Yoni Kasten,Wuyue Lu,Haggai Maron |
発行日 | 2024-04-10 15:37:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google