PointBeV: A Sparse Approach to BeV Predictions

要約

鳥瞰図(BeV)表現は、ドライビングアプリケーションにおける事実上の共有空間として登場し、センサーデータフュージョンのための統一空間を提供し、様々なダウンストリームタスクをサポートしている。しかし、従来のモデルは、固定された解像度と範囲を持つグリッドを使用し、すべてのセルに一様にリソースを割り当てるため、計算効率の悪さに直面している。この問題に対処するため、密なグリッドの代わりに疎なBeVセルで動作する新しい疎BeVセグメンテーションモデルであるPointBeVを提案する。このアプローチは、メモリ使用量を正確に制御し、長い時間コンテキストの使用を可能にし、メモリ制約のあるプラットフォームに対応する。PointBeVは学習に効率的な2パス戦略を採用しており、注目領域に焦点を絞った計算が可能である。推論時には、様々なメモリと性能のトレードオフが可能であり、新しい特定のユースケースに柔軟に適応する。PointBeVは、車両、歩行者、車線のセグメンテーションのためのnuScenesデータセットで最先端の結果を達成し、スパース信号のみで学習されたにもかかわらず、静的かつ時間的な設定で優れた性能を示している。我々は、アーキテクチャで使用される2つの新しい効率的なモジュールと共にコードを公開する:画像からBeVへの効率的な特徴抽出のために設計されたSparse Feature Pullingと、効率的な時間的モデリングを可能にするSubmanifold Attentionである。我々のコードはhttps://github.com/valeoai/PointBeV。

要約(オリジナル)

Bird’s-eye View (BeV) representations have emerged as the de-facto shared space in driving applications, offering a unified space for sensor data fusion and supporting various downstream tasks. However, conventional models use grids with fixed resolution and range and face computational inefficiencies due to the uniform allocation of resources across all cells. To address this, we propose PointBeV, a novel sparse BeV segmentation model operating on sparse BeV cells instead of dense grids. This approach offers precise control over memory usage, enabling the use of long temporal contexts and accommodating memory-constrained platforms. PointBeV employs an efficient two-pass strategy for training, enabling focused computation on regions of interest. At inference time, it can be used with various memory/performance trade-offs and flexibly adjusts to new specific use cases. PointBeV achieves state-of-the-art results on the nuScenes dataset for vehicle, pedestrian, and lane segmentation, showcasing superior performance in static and temporal settings despite being trained solely with sparse signals. We will release our code along with two new efficient modules used in the architecture: Sparse Feature Pulling, designed for the effective extraction of features from images to BeV, and Submanifold Attention, which enables efficient temporal modeling. Our code is available at https://github.com/valeoai/PointBeV.

arxiv情報

著者 Loick Chambon,Eloi Zablocki,Mickael Chen,Florent Bartoccioni,Patrick Perez,Matthieu Cord
発行日 2023-12-01 16:38:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク