要約
点群の登録は、コンピューター ビジョンとロボット工学の分野における基本的なタスクです。
変圧器ベースの手法の最近の開発により、この領域のパフォーマンスが向上していることが実証されました。
ただし、これらの方法で利用される標準的な注意メカニズムは、多くの関連性の低いポイントを統合することが多いため、まばらだが意味のあるポイントに注意の重みを優先させるのに苦労します。
この非効率性により、局所構造モデリング機能が制限され、二次計算の複雑さが生じます。
これらの制限を克服するために、線形計算の複雑さを維持しながら包括的なローカルおよびグローバルの特徴を効率的に抽出する、点群登録のための新しいトランスフォーマーベースのアプローチである Point Tree Transformer (PTT) を提案します。
PTT は、粗から密への方法で点群から階層的な特徴ツリーを構築し、新しいポイント ツリー アテンション (PTA) メカニズムを導入します。このメカニズムは、ツリー構造に従って、顕著な点に向けて注目領域の漸進的な収束を促進します。
具体的には、各ツリー層は最も高い注目スコアを持つキーポイントのサブセットを選択的に識別します。
後続のレイヤーでは、選択した点セットの子点から派生した、重要な関連性のある領域に注目が集まります。
特徴抽出プロセスには、高レベルの意味情報を取得する粗い点特徴がさらに組み込まれているため、局所構造モデリングとマルチスケール情報の漸進的統合が容易になります。
その結果、PTA により、線形計算の複雑さを維持しながら、モデルが重要な局所構造に集中し、詳細な局所情報を導き出すことができるようになります。
3DMatch、ModelNet40、KITTI データセットに対して行われた広範な実験により、私たちの手法が最先端の手法よりも優れたパフォーマンスを達成できることが実証されました。
要約(オリジナル)
Point cloud registration is a fundamental task in the fields of computer vision and robotics. Recent developments in transformer-based methods have demonstrated enhanced performance in this domain. However, the standard attention mechanism utilized in these methods often integrates many low-relevance points, thereby struggling to prioritize its attention weights on sparse yet meaningful points. This inefficiency leads to limited local structure modeling capabilities and quadratic computational complexity. To overcome these limitations, we propose the Point Tree Transformer (PTT), a novel transformer-based approach for point cloud registration that efficiently extracts comprehensive local and global features while maintaining linear computational complexity. The PTT constructs hierarchical feature trees from point clouds in a coarse-to-dense manner, and introduces a novel Point Tree Attention (PTA) mechanism, which follows the tree structure to facilitate the progressive convergence of attended regions towards salient points. Specifically, each tree layer selectively identifies a subset of key points with the highest attention scores. Subsequent layers focus attention on areas of significant relevance, derived from the child points of the selected point set. The feature extraction process additionally incorporates coarse point features that capture high-level semantic information, thus facilitating local structure modeling and the progressive integration of multiscale information. Consequently, PTA empowers the model to concentrate on crucial local structures and derive detailed local information while maintaining linear computational complexity. Extensive experiments conducted on the 3DMatch, ModelNet40, and KITTI datasets demonstrate that our method achieves superior performance over the state-of-the-art methods.
arxiv情報
著者 | Meiling Wang,Guangyan Chen,Yi Yang,Li Yuan,Yufeng Yue |
発行日 | 2024-06-25 13:14:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google