S4C: Self-Supervised Semantic Scene Completion with Neural Fields

要約

3D セマンティック シーンの理解は、コンピューター ビジョンにおける基本的な課題です。
これにより、モバイル エージェントが自律的に計画を立て、任意の環境をナビゲートできるようになります。
SSC は、この課題を、シーンのまばらな観察から高密度のジオメトリと意味論的な情報を共同推定するものとして形式化します。
SSC の現在の方法は通常、集約された LiDAR スキャンに基づいて 3D グラウンド トゥルースに基づいてトレーニングされます。
このプロセスは特殊なセンサーと手動による注釈に依存しますが、これらはコストがかかり、適切に拡張できません。
この問題を克服するために、私たちの研究では、3D グラウンド トゥルース データに依存しない、S4C と呼ばれる SSC への最初の自己教師ありアプローチを提示しています。
私たちが提案する方法は、単一の画像からシーンを再構成でき、トレーニング中に既製の画像セグメンテーション ネットワークから生成されたビデオと擬似セグメンテーション グラウンド トゥルースのみに依存します。
離散的なボクセル グリッドを使用する既存の方法とは異なり、シーンを暗黙的なセマンティック フィールドとして表現します。
この定式化により、占有および意味クラスについてカメラ錐台内の任意の点をクエリすることができます。
私たちのアーキテクチャは、レンダリングベースの自己監視型損失を通じてトレーニングされています。
それにもかかわらず、私たちの方法は、完全に監視された最先端の方法に近いパフォーマンスを達成します。
さらに、私たちの方法は強力な一般化機能を実証し、遠く離れた視点の正確なセグメンテーション マップを合成できます。

要約(オリジナル)

3D semantic scene understanding is a fundamental challenge in computer vision. It enables mobile agents to autonomously plan and navigate arbitrary environments. SSC formalizes this challenge as jointly estimating dense geometry and semantic information from sparse observations of a scene. Current methods for SSC are generally trained on 3D ground truth based on aggregated LiDAR scans. This process relies on special sensors and annotation by hand which are costly and do not scale well. To overcome this issue, our work presents the first self-supervised approach to SSC called S4C that does not rely on 3D ground truth data. Our proposed method can reconstruct a scene from a single image and only relies on videos and pseudo segmentation ground truth generated from off-the-shelf image segmentation network during training. Unlike existing methods, which use discrete voxel grids, we represent scenes as implicit semantic fields. This formulation allows querying any point within the camera frustum for occupancy and semantic class. Our architecture is trained through rendering-based self-supervised losses. Nonetheless, our method achieves performance close to fully supervised state-of-the-art methods. Additionally, our method demonstrates strong generalization capabilities and can synthesize accurate segmentation maps for far away viewpoints.

arxiv情報

著者 Adrian Hayler,Felix Wimbauer,Dominik Muhle,Christian Rupprecht,Daniel Cremers
発行日 2023-10-11 14:19:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク