要約
シーンの3次元形状を1つのビューから復元することは、コンピュータビジョンにおける基本的な問題であるが、まだ解決されていない問題である。古典的な奥行き推定法が画像平面に限定された2.5次元シーン表現のみを推測するのに対し、輝度フィールドに基づく最近のアプローチは完全な3次元表現を復元する。しかしながら、視覚的な観察なしに形状を推測するには、(i)周囲の環境に関する意味的な知識、(ii)空間的な文脈に関する推論が必要であるため、これらの手法は依然として隠蔽領域に対して苦戦している。我々はKYNを提案する。KYNは、各点の密度を予測するために、意味的文脈と空間的文脈を推論する、シングルビューのシーン再構成のための新しい手法である。視覚言語変調モジュールを導入し、点の特徴をきめ細かな意味情報で豊かにする。言語ガイド付き空間的注意メカニズムによりシーン全体の点表現を集約し、3D意味コンテキストを意識した点毎の密度予測を行う。KYNは、各3次元点の密度を単独で予測するよりも、3次元形状復元を改善することを示す。KITTI-360におけるシーンとオブジェクトの再構成において最先端の結果を達成し、先行研究と比較してゼロショット汎化が改善されたことを示す。プロジェクトページ: https://ruili3.github.io/kyn.
要約(オリジナル)
Recovering the 3D scene geometry from a single view is a fundamental yet ill-posed problem in computer vision. While classical depth estimation methods infer only a 2.5D scene representation limited to the image plane, recent approaches based on radiance fields reconstruct a full 3D representation. However, these methods still struggle with occluded regions since inferring geometry without visual observation requires (i) semantic knowledge of the surroundings, and (ii) reasoning about spatial context. We propose KYN, a novel method for single-view scene reconstruction that reasons about semantic and spatial context to predict each point’s density. We introduce a vision-language modulation module to enrich point features with fine-grained semantic information. We aggregate point representations across the scene through a language-guided spatial attention mechanism to yield per-point density predictions aware of the 3D semantic context. We show that KYN improves 3D shape recovery compared to predicting density for each 3D point in isolation. We achieve state-of-the-art results in scene and object reconstruction on KITTI-360, and show improved zero-shot generalization compared to prior work. Project page: https://ruili3.github.io/kyn.
arxiv情報
著者 | Rui Li,Tobias Fischer,Mattia Segu,Marc Pollefeys,Luc Van Gool,Federico Tombari |
発行日 | 2024-04-04 17:59:59+00:00 |
arxivサイト | arxiv_id(pdf) |