Towards Deeper and Better Multi-view Feature Fusion for 3D Semantic Segmentation

要約

3D 点群には豊富な幾何学的構造情報が含まれていますが、2D 画像には重要で連続的なテクスチャ情報が含まれています。
2D 情報を組み合わせて 3D セマンティック セグメンテーションを改善することは、3D シーンの理解において主流になりました。
成功したとはいえ、これら 2 つの異なる空間から次元を超えた特徴をどのように融合させて処理するかは、まだとらえどころのないままです。
既存の最先端技術では、通常、双方向射影法を利用して次元間特徴を整列させ、2D と 3D の両方のセマンティック セグメンテーション タスクを実現します。
ただし、双方向のマッピングを可能にするために、このフレームワークでは多くの場合、対称的な 2D-3D ネットワーク構造が必要になるため、ネットワークの柔軟性が制限されます。
一方、このようなデュアル タスクの設定は、ネットワークを簡単に気を散らし、3 D セグメンテーション タスクの過適合につながる可能性があります。
ネットワークの柔軟性に制限があるため、融合された機能はデコーダー ネットワークのみを通過できます。これは、深さが不十分なためにモデルのパフォーマンスに影響を与えます。
これらの欠点を軽減するために、このホワイト ペーパーでは、そのシンプルさにもかかわらず、3D ディープ セマンティック機能に合わせて 3D 空間に多視点の 2D ディープ セマンティック機能を一方向に射影すると、より良い機能融合につながる可能性があると主張します。
一方では、単方向射影により、コア タスク、つまり 3D セグメンテーションに重点を置いたモデルが強制されます。
一方、双方向から一方向へのプロジェクションのロックを解除すると、より深いクロスドメインのセマンティック アラインメントが可能になり、非常に異なる空間からより優れた複雑な機能を融合する柔軟性が得られます。
共同 2D-3D アプローチでは、提案された方法は、3D セマンティック セグメンテーションの ScanNetv2 ベンチマークで優れたパフォーマンスを達成します。

要約(オリジナル)

3D point clouds are rich in geometric structure information, while 2D images contain important and continuous texture information. Combining 2D information to achieve better 3D semantic segmentation has become mainstream in 3D scene understanding. Albeit the success, it still remains elusive how to fuse and process the cross-dimensional features from these two distinct spaces. Existing state-of-the-art usually exploit bidirectional projection methods to align the cross-dimensional features and realize both 2D & 3D semantic segmentation tasks. However, to enable bidirectional mapping, this framework often requires a symmetrical 2D-3D network structure, thus limiting the network’s flexibility. Meanwhile, such dual-task settings may distract the network easily and lead to over-fitting in the 3D segmentation task. As limited by the network’s inflexibility, fused features can only pass through a decoder network, which affects model performance due to insufficient depth. To alleviate these drawbacks, in this paper, we argue that despite its simplicity, projecting unidirectionally multi-view 2D deep semantic features into the 3D space aligned with 3D deep semantic features could lead to better feature fusion. On the one hand, the unidirectional projection enforces our model focused more on the core task, i.e., 3D segmentation; on the other hand, unlocking the bidirectional to unidirectional projection enables a deeper cross-domain semantic alignment and enjoys the flexibility to fuse better and complicated features from very different spaces. In joint 2D-3D approaches, our proposed method achieves superior performance on the ScanNetv2 benchmark for 3D semantic segmentation.

arxiv情報

著者 Chaolong Yang,Yuyao Yan,Weiguang Zhao,Jianan Ye,Xi Yang,Amir Hussain,Kaizhu Huang
発行日 2022-12-13 15:58:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク