要約
Bird’s Eye View(BEV)セマンティックマップは最近、環境の有用な表現として多くの注目を集め、支援および自律的な運転タスクに取り組んでいます。
ただし、既存の作業のほとんどは、完全に監視されている設定、大規模な注釈付きデータセットのトレーニングネットワークに焦点を当てています。
この作業では、BEVセマンティックセグメンテーションネットワークの自己監視トレーニングの新しい方法であるRendBevを提示し、2Dセマンティックセグメンテーションモデルによって計算されたセマンティックの観点から監督を受けるための微分可能なボリュームレンダリングを活用します。
私たちの方法は、ゼロショットBEVセマンティックセグメンテーションを可能にし、すでにこの挑戦的な設定で競争力のある結果を提供しています。
その後、ラベル付きBEVグラウンドトゥルースで微調整するために事前に使用される場合、我々の方法は、低音符制度のパフォーマンスを大幅に向上させ、利用可能なすべてのラベルで微調整する際に新しい最新の最新を設定します。
要約(オリジナル)
Bird’s Eye View (BEV) semantic maps have recently garnered a lot of attention as a useful representation of the environment to tackle assisted and autonomous driving tasks. However, most of the existing work focuses on the fully supervised setting, training networks on large annotated datasets. In this work, we present RendBEV, a new method for the self-supervised training of BEV semantic segmentation networks, leveraging differentiable volumetric rendering to receive supervision from semantic perspective views computed by a 2D semantic segmentation model. Our method enables zero-shot BEV semantic segmentation, and already delivers competitive results in this challenging setting. When used as pretraining to then fine-tune on labeled BEV ground-truth, our method significantly boosts performance in low-annotation regimes, and sets a new state of the art when fine-tuning on all available labels.
arxiv情報
著者 | Henrique Piñeiro Monteagudo,Leonardo Taccari,Aurel Pjetri,Francesco Sambo,Samuele Salti |
発行日 | 2025-02-20 18:11:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google