Addressing Diverging Training Costs using Local Restoration for Precise Bird’s Eye View Map Construction


地図作成のための鳥瞰図 (BEV) 融合における最近の進歩により、都市環境の顕著なマッピングが実証されました。
ただし、深くてかさばるアーキテクチャにより、大量のバックプロパゲーション メモリとコンピューティング レイテンシが発生します。
その結果、この問題は、高解像度 (HR) BEV マップの構築において避けられないボトルネックとなっています。その大きなサイズのフィーチャは、トレーニング コストの発散問題と呼ばれる、GPU メモリ消費や計算遅延などのコストの大幅な増加を引き起こすからです。
この問題の影響を受け、既存の手法のほとんどは低解像度 (LR) BEV を採用しており、車線や歩道などの都市風景の構成要素の正確な位置を推定するのに苦労しています。
このペーパーでは、新しいトランペット ニューラル ネットワーク (TNN) メカニズムを使用して問題に対処します。
このフレームワークは LR BEV 空間を利用し、アップサンプリングされたセマンティック BEV マップを出力して、メモリ効率の高いパイプラインを作成します。
この目的を達成するために、BEV 表現のローカル復元を導入します。
具体的には、アップサンプリングされた BEV 表現には、エイリアスがひどく、ブロック状の信号が含まれ、意味ラベルが厚くなります。
私たちが提案するローカル復元は、信号を復元し、ラベルの幅を薄くします (または狭くします)。
私たちの広範な実験により、TNN メカニズムがプラグアンドプレイのメモリ効率の高いパイプラインを提供し、それによって BEV マップ構築のための実際のサイズの (または正確な) 意味ラベルの効果的な推定が可能になることが示されました。


Recent advancements in Bird’s Eye View (BEV) fusion for map construction have demonstrated remarkable mapping of urban environments. However, their deep and bulky architecture incurs substantial amounts of backpropagation memory and computing latency. Consequently, the problem poses an unavoidable bottleneck in constructing high-resolution (HR) BEV maps, as their large-sized features cause significant increases in costs including GPU memory consumption and computing latency, named diverging training costs issue. Affected by the problem, most existing methods adopt low-resolution (LR) BEV and struggle to estimate the precise locations of urban scene components like road lanes, and sidewalks. As the imprecision leads to risky self-driving, the diverging training costs issue has to be resolved. In this paper, we address the issue with our novel Trumpet Neural Network (TNN) mechanism. The framework utilizes LR BEV space and outputs an up-sampled semantic BEV map to create a memory-efficient pipeline. To this end, we introduce Local Restoration of BEV representation. Specifically, the up-sampled BEV representation has severely aliased, blocky signals, and thick semantic labels. Our proposed Local Restoration restores the signals and thins (or narrows down) the width of the labels. Our extensive experiments show that the TNN mechanism provides a plug-and-play memory-efficient pipeline, thereby enabling the effective estimation of real-sized (or precise) semantic labels for BEV map construction.


著者 Minsu Kim,Giseop Kim,Sunwook Choi
発行日 2024-06-04 03:03:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV パーマリンク