要約
DEtection TRansformer (DETR) は、統一された視覚認識のために学習可能なクエリのグループを使用するトレンドを開始しました。
この作業は、この魅力的なパラダイムを LiDAR ベースの点群セグメンテーションに適用することから始まり、シンプルでありながら効果的なベースラインを取得します。
単純な適応は公正な結果をもたらしますが、インスタンスのセグメンテーションのパフォーマンスは以前の作業よりも著しく劣っています。
詳細に掘り下げると、まばらな点群のインスタンスはシーン全体に対して比較的小さく、多くの場合、類似したジオメトリを持ちますが、画像ドメインではまれなセグメンテーションの特徴的な外観が欠けていることがわかります。
3D のインスタンスは位置情報によってより特徴付けられることを考慮して、モデリング中の役割を強調し、セグメンテーション プロセスをガイドする堅牢な Mixed-parameterized Positional Embedding (MPE) を設計します。
これはバックボーン機能に埋め込まれ、後でマスク予測とクエリ更新プロセスを反復的にガイドし、位置認識セグメンテーション (PA-Seg) とマスク フォーカル アテンション (MFA) につながります。
これらすべての設計により、クエリは特定の地域に注意を払い、さまざまなインスタンスを識別するようになります。
位置ガイド ポイント クラウド パノプティック セグメンテーション トランスフォーマー (P3Former) と名付けられたこの方法は、SemanticKITTI および nuScenes ベンチマークでそれぞれ 3.4% および 1.2% PQ で、以前の最先端の方法よりも優れています。
ソース コードとモデルは、https://github.com/SmartBot-PJLab/P3Former で入手できます。
要約(オリジナル)
DEtection TRansformer (DETR) started a trend that uses a group of learnable queries for unified visual perception. This work begins by applying this appealing paradigm to LiDAR-based point cloud segmentation and obtains a simple yet effective baseline. Although the naive adaptation obtains fair results, the instance segmentation performance is noticeably inferior to previous works. By diving into the details, we observe that instances in the sparse point clouds are relatively small to the whole scene and often have similar geometry but lack distinctive appearance for segmentation, which are rare in the image domain. Considering instances in 3D are more featured by their positional information, we emphasize their roles during the modeling and design a robust Mixed-parameterized Positional Embedding (MPE) to guide the segmentation process. It is embedded into backbone features and later guides the mask prediction and query update processes iteratively, leading to Position-Aware Segmentation (PA-Seg) and Masked Focal Attention (MFA). All these designs impel the queries to attend to specific regions and identify various instances. The method, named Position-guided Point cloud Panoptic segmentation transFormer (P3Former), outperforms previous state-of-the-art methods by 3.4% and 1.2% PQ on SemanticKITTI and nuScenes benchmark, respectively. The source code and models are available at https://github.com/SmartBot-PJLab/P3Former .
arxiv情報
著者 | Zeqi Xiao,Wenwei Zhang,Tai Wang,Chen Change Loy,Dahua Lin,Jiangmiao Pang |
発行日 | 2023-03-23 17:59:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google