2D-3D Interlaced Transformer for Point Cloud Segmentation with Scene-Level Supervision

要約

我々は、弱監視された点群セグメンテーションのために 2D データと 3D データを共同で考慮するマルチモーダル インターレース トランスフォーマー (MIT) を紹介します。
調査研究では、2D フィーチャと 3D フィーチャが点群セグメンテーションを補完することが示されています。
ただし、既存の方法では、2D-3D 情報の融合を実現するために追加の 2D アノテーションが必要です。
点群のアノテーション コストが高いことを考慮すると、弱い教師あり学習に基づいた効果的な 2D および 3D 特徴の融合が大きな需要となります。
この目的を達成するために、シーンレベルのクラスタグのみを使用して弱く監視された点群セグメンテーションのための 2 つのエンコーダーと 1 つのデコーダーを備えたトランスフォーマー モデルを提案します。
具体的には、2 つのエンコーダはそれぞれ 3D 点群と 2D マルチビュー画像の自己注目特徴を計算します。
デコーダは、インターレース 2D-3D クロスアテンションを実装し、暗黙的な 2D と 3D の特徴融合を実行します。
デコーダー層でのクエリとキーと値のペアの役割を交互に切り替えます。
2D と 3D の特徴が反復的に相互に強化されていることがわかります。
実験によると、既存の弱く監視された点群セグメンテーション手法に対して、S3DIS および ScanNet ベンチマークで大差をつけて有利に実行されることが示されています。
プロジェクト ページは https://jimmy15923.github.io/mit_web/ で利用できるようになります。

要約(オリジナル)

We present a Multimodal Interlaced Transformer (MIT) that jointly considers 2D and 3D data for weakly supervised point cloud segmentation. Research studies have shown that 2D and 3D features are complementary for point cloud segmentation. However, existing methods require extra 2D annotations to achieve 2D-3D information fusion. Considering the high annotation cost of point clouds, effective 2D and 3D feature fusion based on weakly supervised learning is in great demand. To this end, we propose a transformer model with two encoders and one decoder for weakly supervised point cloud segmentation using only scene-level class tags. Specifically, the two encoders compute the self-attended features for 3D point clouds and 2D multi-view images, respectively. The decoder implements interlaced 2D-3D cross-attention and carries out implicit 2D and 3D feature fusion. We alternately switch the roles of queries and key-value pairs in the decoder layers. It turns out that the 2D and 3D features are iteratively enriched by each other. Experiments show that it performs favorably against existing weakly supervised point cloud segmentation methods by a large margin on the S3DIS and ScanNet benchmarks. The project page will be available at https://jimmy15923.github.io/mit_web/.

arxiv情報

著者 Cheng-Kun Yang,Min-Hung Chen,Yung-Yu Chuang,Yen-Yu Lin
発行日 2023-10-19 15:12:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク