要約
LiDAR ベースの完全にスパースなアーキテクチャがますます注目を集めています。
FSDv1 は代表的な作品として際立っており、複雑な構造と手作りのデザインにもかかわらず、印象的な有効性と効率性を実現しています。
このペーパーでは、以前の FSDv1 を簡素化しつつ、手作りのインスタンス レベル表現によって導入された誘導バイアスを排除し、より一般的な適用性を高めることを目的とした進化である FSDv2 について説明します。
この目的を達成するために、FSDv1 のクラスタリング ベースのインスタンス セグメンテーションを引き継ぐ \textbf{仮想ボクセル} の概念を導入します。
仮想ボクセルは、完全にまばらな検出器における中心特徴欠落問題という悪名高い問題に対処するだけでなく、フレームワークに、よりエレガントで合理化されたアプローチを与えます。
その結果、仮想ボクセルエンコーダー、仮想ボクセルミキサー、仮想ボクセル割り当て戦略など、仮想ボクセルの概念を補完する一連のコンポーネントを開発します。
経験的な検証を通じて、仮想ボクセル メカニズムは機能的には FSDv1 の手作りのクラスタリングと同様でありながら、より一般的であることを実証します。
Waymo Open Dataset、Argoverse 2 データセット、nuScenes データセットの 3 つの大規模データセットで実験を行います。
私たちの結果は、3 つのデータセットすべてで最先端のパフォーマンスを示しており、長距離シナリオにおける FSDv2 の優位性と、さまざまなシナリオにわたって競争力のあるパフォーマンスを達成するための一般的な適用可能性を強調しています。
さらに、FSDv2 の仕組みを解明するための包括的な実験分析を提供します。
再現性とさらなる研究を促進するために、https://github.com/tusen-ai/SST で FSDv2 をオープンソース化しました。
要約(オリジナル)
LiDAR-based fully sparse architecture has garnered increasing attention. FSDv1 stands out as a representative work, achieving impressive efficacy and efficiency, albeit with intricate structures and handcrafted designs. In this paper, we present FSDv2, an evolution that aims to simplify the previous FSDv1 while eliminating the inductive bias introduced by its handcrafted instance-level representation, thus promoting better general applicability. To this end, we introduce the concept of \textbf{virtual voxels}, which takes over the clustering-based instance segmentation in FSDv1. Virtual voxels not only address the notorious issue of the Center Feature Missing problem in fully sparse detectors but also endow the framework with a more elegant and streamlined approach. Consequently, we develop a suite of components to complement the virtual voxel concept, including a virtual voxel encoder, a virtual voxel mixer, and a virtual voxel assignment strategy. Through empirical validation, we demonstrate that the virtual voxel mechanism is functionally similar to the handcrafted clustering in FSDv1 while being more general. We conduct experiments on three large-scale datasets: Waymo Open Dataset, Argoverse 2 dataset, and nuScenes dataset. Our results showcase state-of-the-art performance on all three datasets, highlighting the superiority of FSDv2 in long-range scenarios and its general applicability to achieve competitive performance across diverse scenarios. Moreover, we provide comprehensive experimental analysis to elucidate the workings of FSDv2. To foster reproducibility and further research, we have open-sourced FSDv2 at https://github.com/tusen-ai/SST.
arxiv情報
| 著者 | Lue Fan,Feng Wang,Naiyan Wang,Zhaoxiang Zhang |
| 発行日 | 2023-08-07 17:59:48+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google