要約
畳み込みニューラル ネットワーク (CNN) は、コンピューター ビジョン、画像のインデックス付け、検索や意味分類など、さまざまな 2D 画像解析タスクにおいて極めて重要です。
CNN を点群や 3D メッシュなどの 3D データに拡張すると、不規則な接続の問題に対処するために、非常に基本的な畳み込み演算子とプーリング演算子を完全に再検討し、適切な方法で再定義する必要があるため、重大な課題が生じます。
このペーパーでは、特殊な畳み込みと面崩壊ベースのプーリング オペレーターを統合した 3D メッシュ専用の手法である MeshConv3D を紹介します。
MeshConv3D は、事前の再メッシュ/変換技術を必要とせず、任意のトポロジーのメッシュ上で直接動作します。
私たちのアプローチを検証するために、意味論的な分類タスクを検討しました。
3 つの異なるベンチマーク データセットで得られた実験結果は、提案されたアプローチにより、関連するメモリ フットプリントと計算負荷を最小限に抑えながら、同等または優れた分類結果を達成できることを示しています。
要約(オリジナル)
Convolutional neural networks (CNNs) have been pivotal in various 2D image analysis tasks, including computer vision, image indexing and retrieval or semantic classification. Extending CNNs to 3D data such as point clouds and 3D meshes raises significant challenges since the very basic convolution and pooling operators need to be completely re-visited and re-defined in an appropriate manner to tackle irregular connectivity issues. In this paper, we introduce MeshConv3D, a 3D mesh-dedicated methodology integrating specialized convolution and face collapse-based pooling operators. MeshConv3D operates directly on meshes of arbitrary topology, without any need of prior re-meshing/conversion techniques. In order to validate our approach, we have considered a semantic classification task. The experimental results obtained on three distinct benchmark datasets show that the proposed approach makes it possible to achieve equivalent or superior classification results, while minimizing the related memory footprint and computational load.
arxiv情報
著者 | Germain Bregeon,Marius Preda,Radu Ispas,Titus Zaharia |
発行日 | 2025-01-07 14:41:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google