要約
最近、グラフベースおよび Transformer ベースの深層学習ネットワークは、さまざまな点群タスクで優れたパフォーマンスを実証しました。
既存のグラフ メソッドのほとんどは静的グラフに基づいており、グラフの関係を確立するために固定入力を受け取ります。
さらに、多くのグラフ手法では、隣接するフィーチャを集約するために最大化と平均化が適用されるため、単一の隣接点のみが重心のフィーチャに影響を与えるか、異なる隣接点が重心のフィーチャに同じ影響を及ぼし、点間の相関と差異は無視されます。
ほとんどの Transformer ベースの手法は、グローバル アテンションに基づいて点群特徴を抽出し、ローカル近傍での特徴学習が不足しています。
これら 2 種類のモデルの問題を解決するために、Graph Transformer と呼ばれる新しい特徴抽出ブロックを提案し、ローカルおよびグローバル パターン上の点群の特徴を学習する GTNet と呼ばれる 3D 点群学習ネットワークを構築します。
Graph Transformer は、グラフベースのメソッドと Transformer ベースのメソッドの利点を統合しており、ローカル トランスフォーマ モジュールとグローバル トランスフォーマ モジュールで構成されます。
Local Transformer は、動的グラフを使用して、動的に更新されるグラフ関係によるドメイン内のクロスアテンションによってすべての隣接点の重みを計算します。これにより、すべての隣接点が異なる重みで重心の特徴に影響を与えることができます。
グローバルトランスフォーマーは、グローバルな自己注意によってローカルトランスフォーマーの受容野を拡大します。
さらに、ネットワークの深さの増加によって引き起こされる勾配の消失を回避するために、GTNet の重心特徴に対して残留接続を実行します。
また、重心と近傍の特徴を採用して Local Transformer でローカル幾何記述子を生成し、モデルのローカル情報学習機能を強化します。
最後に、この論文では形状分類、部品セグメンテーション、セマンティック セグメンテーション タスクに GTNet を使用します。
要約(オリジナル)
Recently, graph-based and Transformer-based deep learning networks have demonstrated excellent performances on various point cloud tasks. Most of the existing graph methods are based on static graph, which take a fixed input to establish graph relations. Moreover, many graph methods apply maximization and averaging to aggregate neighboring features, so that only a single neighboring point affects the feature of centroid or different neighboring points have the same influence on the centroid’s feature, which ignoring the correlation and difference between points. Most Transformer-based methods extract point cloud features based on global attention and lack the feature learning on local neighbors. To solve the problems of these two types of models, we propose a new feature extraction block named Graph Transformer and construct a 3D point point cloud learning network called GTNet to learn features of point clouds on local and global patterns. Graph Transformer integrates the advantages of graph-based and Transformer-based methods, and consists of Local Transformer and Global Transformer modules. Local Transformer uses a dynamic graph to calculate all neighboring point weights by intra-domain cross-attention with dynamically updated graph relations, so that every neighboring point could affect the features of centroid with different weights; Global Transformer enlarges the receptive field of Local Transformer by a global self-attention. In addition, to avoid the disappearance of the gradient caused by the increasing depth of network, we conduct residual connection for centroid features in GTNet; we also adopt the features of centroid and neighbors to generate the local geometric descriptors in Local Transformer to strengthen the local information learning capability of the model. Finally, we use GTNet for shape classification, part segmentation and semantic segmentation tasks in this paper.
arxiv情報
著者 | Wei Zhou,Qian Wang,Weiwei Jin,Xinzhe Shi,Ying He |
発行日 | 2023-06-09 14:23:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google