StitchFusion: Weaving Any Visual Modalities to Enhance Multimodal Semantic Segmentation

要約

マルチモーダルセマンティックセグメンテーションは、複雑なシーンにおけるセグメンテーション精度を向上させる大きな可能性を示している。しかし、現在の手法では、特定のモダリティに特化した特徴融合モジュールを組み込むことが多く、入力の柔軟性が制限され、学習パラメータの数が増加する。これらの課題を解決するために、我々はStitchFusionを提案する。StitchFusionは、大規模な事前学習済みモデルをエンコーダと特徴フューザとして直接統合する、簡単かつ効果的なモーダルフュージョンフレームワークである。このアプローチは、包括的なマルチモーダルおよびマルチスケール特徴フュージョンを容易にし、あらゆる視覚モーダル入力に対応します。具体的には、マルチモーダルな視覚情報を共有することで、エンコード時のモーダルな統合を実現する。モダリティ間の情報交換を強化するために、エンコード中のクロスモーダル情報転送を可能にする多方向アダプタモジュール(MultiAdapter)を導入する。MultiAdapterを活用し、エンコーディングプロセスにおいて、事前に訓練されたエンコーダー間でマルチスケール情報を伝達することで、StitchFusionはエンコーディング中にマルチモーダル視覚情報の統合を実現する。広範な比較実験により、本モデルが4つのマルチモーダルセグメンテーションデータセットにおいて、最小限の追加パラメータで最先端の性能を達成することが実証された。さらに、MultiAdapterと既存の特徴融合モジュール(FFMs)を実験的に統合することで、両者の相補性が明らかになった。コードはStitchFusion_repoで公開されています。

要約(オリジナル)

Multimodal semantic segmentation shows significant potential for enhancing segmentation accuracy in complex scenes. However, current methods often incorporate specialized feature fusion modules tailored to specific modalities, thereby restricting input flexibility and increasing the number of training parameters. To address these challenges, we propose StitchFusion, a straightforward yet effective modal fusion framework that integrates large-scale pre-trained models directly as encoders and feature fusers. This approach facilitates comprehensive multi-modal and multi-scale feature fusion, accommodating any visual modal inputs. Specifically, Our framework achieves modal integration during encoding by sharing multi-modal visual information. To enhance information exchange across modalities, we introduce a multi-directional adapter module (MultiAdapter) to enable cross-modal information transfer during encoding. By leveraging MultiAdapter to propagate multi-scale information across pre-trained encoders during the encoding process, StitchFusion achieves multi-modal visual information integration during encoding. Extensive comparative experiments demonstrate that our model achieves state-of-the-art performance on four multi-modal segmentation datasets with minimal additional parameters. Furthermore, the experimental integration of MultiAdapter with existing Feature Fusion Modules (FFMs) highlights their complementary nature. Our code is available at StitchFusion_repo.

arxiv情報

著者 Bingyu Li,Da Zhang,Zhiyuan Zhao,Junyu Gao,Xuelong Li
発行日 2024-08-02 15:41:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク