要約
3D オブジェクト検出やマルチカメラ画像を使用した鳥瞰図 (BEV) セグメンテーションなどの 3D 認識タスクは、最近大きな注目を集めています。
このタスクでは、セマンティック レイアウトと 3D シーン レイアウトの両方を正確に推定することが重要であるという事実にもかかわらず、既存の技術ではセマンティック キューと奥行きキューの相乗効果が無視されることが多く、分類エラーや位置推定エラーの発生につながります。
さらに、初期クエリの入力に依存しない性質により、Transformer ベースのモデルの学習能力も制限されます。
これらの課題に取り組むために、事前定義としてセマンティクスと深度を活用する入力対応の Transformer フレームワーク (SDTR と呼ばれる) を提案します。
私たちのアプローチには、セマンティクスと深度事前分布を明示的にモデル化する S-D エンコーダーの使用が含まれており、それによってオブジェクトの分類と位置推定の学習プロセスが解きほぐされます。
さらに、Transformer の初期クエリにセマンティック事前を組み込む事前ガイド付きクエリ ビルダーを導入し、より効果的な入力認識クエリを実現します。
nuScenes と Lyft ベンチマークに関する広範な実験により、3D オブジェクト検出と BEV セグメンテーション タスクの両方における当社の手法の最先端のパフォーマンスが実証されました。
要約(オリジナル)
3D perception tasks, such as 3D object detection and Bird’s-Eye-View (BEV) segmentation using multi-camera images, have drawn significant attention recently. Despite the fact that accurately estimating both semantic and 3D scene layouts are crucial for this task, existing techniques often neglect the synergistic effects of semantic and depth cues, leading to the occurrence of classification and position estimation errors. Additionally, the input-independent nature of initial queries also limits the learning capacity of Transformer-based models. To tackle these challenges, we propose an input-aware Transformer framework that leverages Semantics and Depth as priors (named SDTR). Our approach involves the use of an S-D Encoder that explicitly models semantic and depth priors, thereby disentangling the learning process of object categorization and position estimation. Moreover, we introduce a Prior-guided Query Builder that incorporates the semantic prior into the initial queries of the Transformer, resulting in more effective input-aware queries. Extensive experiments on the nuScenes and Lyft benchmarks demonstrate the state-of-the-art performance of our method in both 3D object detection and BEV segmentation tasks.
arxiv情報
著者 | Qi Song,Qingyong Hu,Chi Zhang,Yongquan Chen,Rui Huang |
発行日 | 2024-08-13 13:51:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google