Addressing Diverging Training Costs using Local Restoration for Precise Bird’s Eye View Map Construction

要約

地図構築のための鳥瞰図(BEV)フュージョンにおける最近の進歩は、都市環境の驚くべきマッピングを実証している。しかし、その深くかさばるアーキテクチャは、大量のバックプロパゲーションメモリと計算待ち時間を発生させる。その結果、この問題は、高解像度(HR)BEVマップを構築する上で避けられないボトルネックとなる。その大きな特徴量は、GPUメモリ消費と計算レイテンシを含むコストの大幅な増加を引き起こし、学習コストの発散という問題を引き起こすからである。この問題に影響され、既存の手法の多くは低解像度(LR)BEVを採用し、道路の車線や歩道などの都市シーンの構成要素の正確な位置を推定するのに苦労している。この不正確さが危険な自動運転につながるため、訓練コストの発散問題を解決する必要がある。本論文では、新しいトランペットニューラルネットワーク(TNN)メカニズムにより、この問題に対処する。このフレームワークはLR BEV空間を利用し、メモリ効率の良いパイプラインを作成するために、アップサンプリングされた意味的BEVマップを出力する。この目的のために、BEV表現の局所復元を導入する。具体的には、アップサンプリングされたBEV表現は、ひどくエイリアスのかかった、ブロック化された信号と、太い意味ラベルを持っている。我々の提案する局所復元は、信号を復元し、ラベルの幅を細くする(狭める)。我々の広範な実験により、TNNメカニズムがプラグアンドプレイのメモリ効率の良いパイプラインを提供し、それによりBEVマップ構築のための実サイズの(あるいは正確な)意味ラベルの効果的な推定を可能にすることが示された。

要約(オリジナル)

Recent advancements in Bird’s Eye View (BEV) fusion for map construction have demonstrated remarkable mapping of urban environments. However, their deep and bulky architecture incurs substantial amounts of backpropagation memory and computing latency. Consequently, the problem poses an unavoidable bottleneck in constructing high-resolution (HR) BEV maps, as their large-sized features cause significant increases in costs including GPU memory consumption and computing latency, named diverging training costs issue. Affected by the problem, most existing methods adopt low-resolution (LR) BEV and struggle to estimate the precise locations of urban scene components like road lanes, and sidewalks. As the imprecision leads to risky self-driving, the diverging training costs issue has to be resolved. In this paper, we address the issue with our novel Trumpet Neural Network (TNN) mechanism. The framework utilizes LR BEV space and outputs an up-sampled semantic BEV map to create a memory-efficient pipeline. To this end, we introduce Local Restoration of BEV representation. Specifically, the up-sampled BEV representation has severely aliased, blocky signals, and thick semantic labels. Our proposed Local Restoration restores the signals and thins (or narrows down) the width of the labels. Our extensive experiments show that the TNN mechanism provides a plug-and-play memory-efficient pipeline, thereby enabling the effective estimation of real-sized (or precise) semantic labels for BEV map construction.

arxiv情報

著者 Minsu Kim,Giseop Kim,Sunwook Choi
発行日 2024-06-03 17:36:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク