PanopticNeRF-360: Panoramic 3D-to-2D Label Transfer in Urban Scenes

要約

自動運転車のトレーニング認識システムには、マニュアルラベルから労働集約的な2Dアノテーションが必要です。
既存のデータセットは、事前に録音されたシーケンスで豊富な注釈を提供しますが、それらはめったに遭遇しない視点にラベルを付けるのに不十分であり、知覚モデルの一般化能力を妨げる可能性があります。
この論文では、粗い3Dアノテーションと騒々しい2Dセマンティックキューを組み合わせて、あらゆる観点から高品質のパノプティックラベルと画像を生成する新しいアプローチであるPanopticnerf-360を紹介します。
私たちの重要な洞察は、3Dおよび2Dプライアーの相補性を活用して、幾何学とセマンティクスを相互に強化することにあります。
具体的には、パノプティック擬似地上真理に合わせて予測されたラベルを奨励することにより、粗い3D境界プリミティブとノイズの多い2Dセマンティブとインスタンスの予測を活用することを提案します。
同時に、改善されたジオメトリは、学習したセマンティックフィールドを介して3D空間でセマンティクスを融合することにより、3Dおよび2Dアノテーションノイズのフィルタリングを支援します。
外観をさらに強化するために、MLPとハッシュグリッドを組み合わせてハイブリッドシーンの特徴を生み出し、高周波の外観と連続的なセマンティクスのバランスを取ります。
私たちの実験では、Kitti-360データセットの挑戦的な都市シーンでのラベル転送方法をめぐるPanopticnerf-360の最先端のパフォーマンスを示しています。
さらに、Panopticnerf-360は、高忠実度、マルチビュー、空間的に一貫した外観、セマンティック、インスタンスのラベルの全方向性レンダリングを可能にします。
https://github.com/fuxiao0719/panopticnerfでコードとデータを利用できるようにします

要約(オリジナル)

Training perception systems for self-driving cars requires substantial 2D annotations that are labor-intensive to manual label. While existing datasets provide rich annotations on pre-recorded sequences, they fall short in labeling rarely encountered viewpoints, potentially hampering the generalization ability for perception models. In this paper, we present PanopticNeRF-360, a novel approach that combines coarse 3D annotations with noisy 2D semantic cues to generate high-quality panoptic labels and images from any viewpoint. Our key insight lies in exploiting the complementarity of 3D and 2D priors to mutually enhance geometry and semantics. Specifically, we propose to leverage coarse 3D bounding primitives and noisy 2D semantic and instance predictions to guide geometry optimization, by encouraging predicted labels to match panoptic pseudo ground truth. Simultaneously, the improved geometry assists in filtering 3D&2D annotation noise by fusing semantics in 3D space via a learned semantic field. To further enhance appearance, we combine MLP and hash grids to yield hybrid scene features, striking a balance between high-frequency appearance and contiguous semantics. Our experiments demonstrate PanopticNeRF-360’s state-of-the-art performance over label transfer methods on the challenging urban scenes of the KITTI-360 dataset. Moreover, PanopticNeRF-360 enables omnidirectional rendering of high-fidelity, multi-view and spatiotemporally consistent appearance, semantic and instance labels. We make our code and data available at https://github.com/fuxiao0719/PanopticNeRF

arxiv情報

著者 Xiao Fu,Shangzhan Zhang,Tianrun Chen,Yichong Lu,Xiaowei Zhou,Andreas Geiger,Yiyi Liao
発行日 2025-05-29 16:48:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク