PointCAT: Cross-Attention Transformer for point cloud

要約

タイトル:PointCAT:ポイントクラウドのためのクロスアテンショントランスフォーマー
要約:
– Transformerに基づくモデルは、自然言語処理とコンピュータビジョンの両方で昨今大幅に進化しています。
– ただし、ポイントクラウドデータの不規則な構造のため、3DディープラーニングのためのTransformerベースのモデルは、他の手法と比較してまだ初期段階です。
– 本論文では、ポイントクラウド表現のためのクロスアテンションメカニズムを使用した新しいエンドツーエンドネットワークアーキテクチャであるPointCATを提案します。
– アプローチは、2つの異なるクロスアテンショントランスフォーマーブランチを介してマルチスケール特徴を組み合わせます。
– マルチブランチ構造による計算の増加を減らすために、もう1つのブランチの単一クラストークンのみをクエリとして処理し、他方とのアテンションマップを計算する効率的なモデルを導入します。
– 大規模な実験により、形状分類、パーツセグメンテーション、およびセマンティックセグメンテーションのいずれのタスクにおいて、当方法がいくつかのアプローチに対して優れたパフォーマンスを発揮するか、または同等のパフォーマンスを達成することが示されています。

要約(オリジナル)

Transformer-based models have significantly advanced natural language processing and computer vision in recent years. However, due to the irregular and disordered structure of point cloud data, transformer-based models for 3D deep learning are still in their infancy compared to other methods. In this paper we present Point Cross-Attention Transformer (PointCAT), a novel end-to-end network architecture using cross-attentions mechanism for point cloud representing. Our approach combines multi-scale features via two seprate cross-attention transformer branches. To reduce the computational increase brought by multi-branch structure, we further introduce an efficient model for shape classification, which only process single class token of one branch as a query to calculate attention map with the other. Extensive experiments demonstrate that our method outperforms or achieves comparable performance to several approaches in shape classification, part segmentation and semantic segmentation tasks.

arxiv情報

著者 Xincheng Yang,Mingze Jin,Weiji He,Qian Chen
発行日 2023-04-06 11:58:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク