X-3D: Explicit 3D Structure Modeling for Point Cloud Recognition

要約

多くの先行研究では、主に、個々の近傍点の関係ベクトルを構築し、ベクトルごとに動的カーネルを生成し、これらを高次元空間に埋め込んで暗黙の局所構造を捕捉することに重点を置いています。
しかし、我々は、このような暗黙的な高次元構造モデリング手法では、明示的な構造情報が欠如しているため、点群の局所的な幾何学的構造を適切に表現できないと主張します。
そこで、明示的な 3D 構造モデリング アプローチである X-3D を導入します。
X-3D は、入力 3D 空間内の明示的なローカル構造情報をキャプチャし、それを使用して、現在のローカル領域内のすべての近傍点の重みを共有する動的カーネルを生成することによって機能します。
このモデリング手法では、効果的な幾何学的な事前分布が導入され、埋め込み空間の局所構造と元の入力点群との間の差異が大幅に減少するため、局所特徴の抽出が向上します。
実験では、私たちの方法がさまざまな方法で使用でき、追加の計算コストを低く抑えながらセグメンテーション、分類、検出タスクで最先端のパフォーマンスを達成できることが示されています。たとえば、分類のための ScanObjectNN の \textbf{90.7\%} などです。
セグメンテーション用に S3DIS 6 フォールドの \textbf{79.2\%} と S3DIS Area 5 の \textbf{74.3\%}、セグメンテーション用の ScanNetV2 の \textbf{76.3\%} および \textbf{64.5\%} mAP 、 \textbf{
SUN RGB-D では 46.9\%} mAP、ScanNetV2 では \textbf{69.0\%} mAP 、 \textbf{51.1\%} mAP です。
コードは \href{https://github.com/sunshuofeng/X-3D}{https://github.com/sunshuofeng/X-3D} で入手できます。

要約(オリジナル)

Numerous prior studies predominantly emphasize constructing relation vectors for individual neighborhood points and generating dynamic kernels for each vector and embedding these into high-dimensional spaces to capture implicit local structures. However, we contend that such implicit high-dimensional structure modeling approch inadequately represents the local geometric structure of point clouds due to the absence of explicit structural information. Hence, we introduce X-3D, an explicit 3D structure modeling approach. X-3D functions by capturing the explicit local structural information within the input 3D space and employing it to produce dynamic kernels with shared weights for all neighborhood points within the current local region. This modeling approach introduces effective geometric prior and significantly diminishes the disparity between the local structure of the embedding space and the original input point cloud, thereby improving the extraction of local features. Experiments show that our method can be used on a variety of methods and achieves state-of-the-art performance on segmentation, classification, detection tasks with lower extra computational cost, such as \textbf{90.7\%} on ScanObjectNN for classification, \textbf{79.2\%} on S3DIS 6 fold and \textbf{74.3\%} on S3DIS Area 5 for segmentation, \textbf{76.3\%} on ScanNetV2 for segmentation and \textbf{64.5\%} mAP , \textbf{46.9\%} mAP on SUN RGB-D and \textbf{69.0\%} mAP , \textbf{51.1\%} mAP on ScanNetV2 . Our code is available at \href{https://github.com/sunshuofeng/X-3D}{https://github.com/sunshuofeng/X-3D}.

arxiv情報

著者 Shuofeng Sun,Yongming Rao,Jiwen Lu,Haibin Yan
発行日 2024-04-23 13:15:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク