Where Am I and What Will I See: An Auto-Regressive Model for Spatial Localization and View Prediction

要約

空間知能とは、空間と時間内の 3 次元を認識し、推論し、行動する機械の能力です。
大規模な自己回帰モデルの最近の進歩により、さまざまな推論タスクにわたって驚くべき機能が実証されました。
ただし、これらのモデルは、空間推論の基本的な側面、特に「ここはどこですか?」などの質問に答える際に苦労することがよくあります。
そして「何が見えるでしょうか?」
いくつかの試みが行われてきましたが、既存のアプローチは通常、それらを別個のタスクとして扱い、それらの相互接続された性質を捉えることができません。
この論文では、空間ローカライゼーションとビュー予測に共同で取り組む新しい自己回帰フレームワークである Generative Spatial Transformer (GST) を紹介します。
私たちのモデルは、単一の画像からカメラの姿勢を推定し、新しいカメラの姿勢からビューを予測することを同時に行い、空間認識と視覚予測の間のギャップを効果的に橋渡しします。
提案された革新的なカメラのトークン化方法により、モデルは 2D 投影の同時分布とそれに対応する空間的視点を自己回帰的に学習できます。
この統合されたトレーニング パラダイムは、姿勢推定と新しいビュー合成の共同最適化が両方のタスクのパフォーマンスの向上につながることを初めて実証し、空間認識と視覚予測の間に固有の関係を浮き彫りにします。

要約(オリジナル)

Spatial intelligence is the ability of a machine to perceive, reason, and act in three dimensions within space and time. Recent advancements in large-scale auto-regressive models have demonstrated remarkable capabilities across various reasoning tasks. However, these models often struggle with fundamental aspects of spatial reasoning, particularly in answering questions like ‘Where am I?’ and ‘What will I see?’. While some attempts have been done, existing approaches typically treat them as separate tasks, failing to capture their interconnected nature. In this paper, we present Generative Spatial Transformer (GST), a novel auto-regressive framework that jointly addresses spatial localization and view prediction. Our model simultaneously estimates the camera pose from a single image and predicts the view from a new camera pose, effectively bridging the gap between spatial awareness and visual prediction. The proposed innovative camera tokenization method enables the model to learn the joint distribution of 2D projections and their corresponding spatial perspectives in an auto-regressive manner. This unified training paradigm demonstrates that joint optimization of pose estimation and novel view synthesis leads to improved performance in both tasks, for the first time, highlighting the inherent relationship between spatial awareness and visual prediction.

arxiv情報

著者 Junyi Chen,Di Huang,Weicai Ye,Wanli Ouyang,Tong He
発行日 2024-10-24 17:58:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク