PanopticNeRF-360: Panoramic 3D-to-2D Label Transfer in Urban Scenes

要約

自動運転車の認識システムをトレーニングするには、大量のアノテーションが必要です。
ただし、2D 画像に手動でラベルを付けるのは非常に手間がかかります。
既存のデータセットは、事前に記録されたシーケンスに豊富な注釈を提供しますが、めったに遭遇しない視点のラベル付けには不十分であり、知覚モデルの一般化能力を妨げる可能性があります。
この論文では、粗い 3D アノテーションとノイズの多い 2D セマンティック キューを組み合わせて、あらゆる視点から一貫したパノプティック ラベルと高品質の画像を生成する新しいアプローチである PanopticNeRF-360 を紹介します。
私たちの重要な洞察は、3D 事前分布と 2D 事前分布の相補性を活用して、ジオメトリとセマンティクスを相互に強化することにあります。
具体的には、3D 空間と 2D 空間の両方でノイズの多いセマンティック ラベルとインスタンス ラベルを活用して、ジオメトリの最適化をガイドすることを提案します。
同時に、改良されたジオメトリは、学習されたセマンティック フィールドを介して 3D 空間内で注釈をマージすることにより、3D および 2D 注釈に存在するノイズのフィルタリングを支援します。
外観をさらに強化するために、MLP とハッシュ グリッドを組み合わせてハイブリッド シーン特徴を生成し、高頻度の外観と主に連続したセマンティクスのバランスをとります。
私たちの実験では、KITTI-360 データセットの困難な都市シーンにおいて、既存のラベル転送方法を上回る PanopticNeRF-360 の最先端のパフォーマンスを実証しました。
さらに、PanopticNeRF-360 は、高忠実度、マルチビュー、時空間的に一貫した外観、セマンティック、インスタンス ラベルの全方向レンダリングを可能にします。
コードとデータは https://github.com/fuxiao0719/PanopticNeRF で公開しています。

要約(オリジナル)

Training perception systems for self-driving cars requires substantial annotations. However, manual labeling in 2D images is highly labor-intensive. While existing datasets provide rich annotations for pre-recorded sequences, they fall short in labeling rarely encountered viewpoints, potentially hampering the generalization ability for perception models. In this paper, we present PanopticNeRF-360, a novel approach that combines coarse 3D annotations with noisy 2D semantic cues to generate consistent panoptic labels and high-quality images from any viewpoint. Our key insight lies in exploiting the complementarity of 3D and 2D priors to mutually enhance geometry and semantics. Specifically, we propose to leverage noisy semantic and instance labels in both 3D and 2D spaces to guide geometry optimization. Simultaneously, the improved geometry assists in filtering noise present in the 3D and 2D annotations by merging them in 3D space via a learned semantic field. To further enhance appearance, we combine MLP and hash grids to yield hybrid scene features, striking a balance between high-frequency appearance and predominantly contiguous semantics. Our experiments demonstrate PanopticNeRF-360’s state-of-the-art performance over existing label transfer methods on the challenging urban scenes of the KITTI-360 dataset. Moreover, PanopticNeRF-360 enables omnidirectional rendering of high-fidelity, multi-view and spatiotemporally consistent appearance, semantic and instance labels. We make our code and data available at https://github.com/fuxiao0719/PanopticNeRF

arxiv情報

著者 Xiao Fu,Shangzhan Zhang,Tianrun Chen,Yichong Lu,Xiaowei Zhou,Andreas Geiger,Yiyi Liao
発行日 2023-09-19 17:54:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク