Multi-scale Geometry-aware Transformer for 3D Point Cloud Classification

要約

タイトル:3D点群分類のためのMulti-scale Geometry-aware Transformer

要約:
– 自己注意モジュールは、長距離の関係を捉えることができ、点群タスクの性能を向上させることができると示されています。
– しかし、点群オブジェクトは通常、複雑で非ユークリッドな空間構造を持ち、複数のスケールであるため、その動作はしばしば動的かつ予測不可能です。
– 現在の自己注意モジュールは、クエリー-キー-バリュー特徴量間のドット積乗算と寸法の整列に大きく頼っており、点群オブジェクトの多スケール非ユークリッド構造を適切に捉えることができません。
– これらの問題に対応するために、本論文では、自己注意プラグインモジュールとそのバリアント、Multi-scale Geometry-aware Transformer(MGT)を提案しています。
– MGTは、以下の3つの側面で多スケール・ローカル・グローバル幾何情報で点群データを処理します。
– 最初に、MGTは複数のスケールで点群データをパッチに分割します。
– 次に、球面マッピングに基づくローカル特徴抽出器が提案され、各パッチのジオメトリを探索し、各パッチの固定長表現を生成します。
– 最後に、固定長表現を新しい測地線ベースの自己注意に送り、パッチ間のグローバル非ユークリッド幾何を捉えます。
– 全てのモジュールは、エンドツーエンドのトレーニングスキームでMGTのフレームワークに統合されます。
– 実験結果は、MGTが自己注意メカニズムを使用して多スケール幾何を捉える能力を大幅に向上させ、主流の点群ベンチマークで強力な競争力のあるパフォーマンスを達成していることを示しています。

要約(オリジナル)

Self-attention modules have demonstrated remarkable capabilities in capturing long-range relationships and improving the performance of point cloud tasks. However, point cloud objects are typically characterized by complex, disordered, and non-Euclidean spatial structures with multiple scales, and their behavior is often dynamic and unpredictable. The current self-attention modules mostly rely on dot product multiplication and dimension alignment among query-key-value features, which cannot adequately capture the multi-scale non-Euclidean structures of point cloud objects. To address these problems, this paper proposes a self-attention plug-in module with its variants, Multi-scale Geometry-aware Transformer (MGT). MGT processes point cloud data with multi-scale local and global geometric information in the following three aspects. At first, the MGT divides point cloud data into patches with multiple scales. Secondly, a local feature extractor based on sphere mapping is proposed to explore the geometry inner each patch and generate a fixed-length representation for each patch. Thirdly, the fixed-length representations are fed into a novel geodesic-based self-attention to capture the global non-Euclidean geometry between patches. Finally, all the modules are integrated into the framework of MGT with an end-to-end training scheme. Experimental results demonstrate that the MGT vastly increases the capability of capturing multi-scale geometry using the self-attention mechanism and achieves strong competitive performance on mainstream point cloud benchmarks.

arxiv情報

著者 Xian Wei,Muyu Wang,Shing-Ho Jonathan Lin,Zhengyu Li,Jian Yang,Arafat Al-Jawari,Xuan Tang
発行日 2023-04-12 08:34:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク