Large Spatial Model: End-to-end Unposed Images to Semantic 3D

要約

限られた数の画像から 3D 構造を再構築して理解することは、コンピューター ビジョンにおいて確立された問題です。
従来の方法では通常、このタスクを複数のサブタスクに分割し、それぞれに異なるデータ表現間の複雑な変換が必要になります。
たとえば、Structure-from-Motion (SfM) による高密度再構成には、画像のキー ポイントへの変換、カメラ パラメーターの最適化、構造の推定が含まれます。
その後、さらに高密度なモデリングを行うために正確な疎な再構成が必要となり、その後、それがタスク固有のニューラル ネットワークに供給されます。
この複数段階のプロセスにより、かなりの処理時間がかかり、エンジニアリングの複雑さが増大します。
この研究では、ポーズされていない RGB 画像を直接処理してセマンティック放射輝度フィールドにする大規模空間モデル (LSM) を紹介します。
LSM は、単一のフィードフォワード操作でジオメトリ、外観、セマンティクスを同時に推定し、新しい視点で言語と対話することで多用途のラベル マップを生成できます。
LSM は、Transformer ベースのアーキテクチャを活用して、ピクセル位置合わせされたポイント マップを通じてグローバル ジオメトリを統合します。
空間属性回帰を強化するために、マルチスケール フュージョンによるローカル コンテキスト集約を組み込み、局所的な詳細の精度を向上させます。
ラベル付き 3D セマンティック データの不足に対処し、自然言語主導のシーン操作を可能にするために、事前トレーニングされた 2D 言語ベースのセグメンテーション モデルを 3D 一貫性のあるセマンティック フィーチャ フィールドに組み込みます。
次に、効率的なデコーダが一連の意味論的異方性ガウスをパラメータ化し、教師ありエンドツーエンド学習を促進します。
さまざまなタスクにわたる広範な実験により、LSM がポーズを付けていない画像から複数の 3D ビジョン タスクを直接統合し、初めてリアルタイムのセマンティック 3D 再構築を実現することが示されました。

要約(オリジナル)

Reconstructing and understanding 3D structures from a limited number of images is a well-established problem in computer vision. Traditional methods usually break this task into multiple subtasks, each requiring complex transformations between different data representations. For instance, dense reconstruction through Structure-from-Motion (SfM) involves converting images into key points, optimizing camera parameters, and estimating structures. Afterward, accurate sparse reconstructions are required for further dense modeling, which is subsequently fed into task-specific neural networks. This multi-step process results in considerable processing time and increased engineering complexity. In this work, we present the Large Spatial Model (LSM), which processes unposed RGB images directly into semantic radiance fields. LSM simultaneously estimates geometry, appearance, and semantics in a single feed-forward operation, and it can generate versatile label maps by interacting with language at novel viewpoints. Leveraging a Transformer-based architecture, LSM integrates global geometry through pixel-aligned point maps. To enhance spatial attribute regression, we incorporate local context aggregation with multi-scale fusion, improving the accuracy of fine local details. To tackle the scarcity of labeled 3D semantic data and enable natural language-driven scene manipulation, we incorporate a pre-trained 2D language-based segmentation model into a 3D-consistent semantic feature field. An efficient decoder then parameterizes a set of semantic anisotropic Gaussians, facilitating supervised end-to-end learning. Extensive experiments across various tasks show that LSM unifies multiple 3D vision tasks directly from unposed images, achieving real-time semantic 3D reconstruction for the first time.

arxiv情報

著者 Zhiwen Fan,Jian Zhang,Wenyan Cong,Peihao Wang,Renjie Li,Kairun Wen,Shijie Zhou,Achuta Kadambi,Zhangyang Wang,Danfei Xu,Boris Ivanovic,Marco Pavone,Yue Wang
発行日 2024-10-24 17:54:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク