要約
3D占有予測は、強力な幾何学的認識とオブジェクト認識能力のために、自律運転の分野で多くの注目を集めています。
ただし、既存の方法では、ボクセルの最も重要な分布パターンを調査していないため、不十分な結果が生じています。
このペーパーでは、最初にボクセルのクラス間分布と幾何学的分布を調査し、それによってクラス間分布によって引き起こされる長期尾の問題と、幾何学的分布によって引き起こされるパフォーマンスの低下を解決します。
具体的には、このホワイトペーパーでは、SHTOCC(スパースヘッドテール占有率)を提案します。これは、スパースヘッドテールボクセル構造を使用して、ヘッドとテールクラスのキーボクセルを正確に識別およびバランスさせながら、デカップされた学習を使用して、支配的な(ヘッド)カテゴリに向けたモデルのバイアスを減らし、テールクラスのフォーカスを強化します。
実験では、複数のベースラインで大幅な改善が行われたことが示されています。SHTOCCはGPUメモリの使用量を42.2%削減し、推論速度を58.6%増加させ、精度を約7%向上させ、有効性と効率を確認します。
このコードは、https://github.com/ge95net/shtoccで入手できます
要約(オリジナル)
3D occupancy prediction has attracted much attention in the field of autonomous driving due to its powerful geometric perception and object recognition capabilities. However, existing methods have not explored the most essential distribution patterns of voxels, resulting in unsatisfactory results. This paper first explores the inter-class distribution and geometric distribution of voxels, thereby solving the long-tail problem caused by the inter-class distribution and the poor performance caused by the geometric distribution. Specifically, this paper proposes SHTOcc (Sparse Head-Tail Occupancy), which uses sparse head-tail voxel construction to accurately identify and balance key voxels in the head and tail classes, while using decoupled learning to reduce the model’s bias towards the dominant (head) category and enhance the focus on the tail class. Experiments show that significant improvements have been made on multiple baselines: SHTOcc reduces GPU memory usage by 42.2%, increases inference speed by 58.6%, and improves accuracy by about 7%, verifying its effectiveness and efficiency. The code is available at https://github.com/ge95net/SHTOcc
arxiv情報
著者 | Qiucheng Yu,Yuan Xie,Xin Tan |
発行日 | 2025-05-28 15:16:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google