要約
マルチセンサー データの利用可能性が高まるにつれて、マルチモーダル自己教師あり学習への関心が高まっています。
しかし、既存のアプローチのほとんどは、モダリティ間の共通表現のみを学習し、モダリティ内のトレーニングやモダリティ固有の表現を無視しています。
我々は、マルチモーダルな自己教師あり学習のためのシンプルかつ効果的な方法である、Decoupling Common and Unique Representations (DeCUR) を提案します。
DeCUR は、モーダル間埋め込みとモーダル内埋め込みを区別することにより、異なるモダリティ間で補完的な情報を統合するように訓練されています。
3 つの一般的なマルチモーダル シナリオ (レーダー光学、RGB 標高、および RGB 深度) で DeCUR を評価し、シーン分類とセマンティック セグメンテーションの下流タスクに対する一貫した利点を実証します。
特に、ハイパーパラメータ調整を行わずに、事前トレーニングされたバックボーンを最先端の教師ありマルチモーダル手法に移行することで、直接的な改善が得られます。
さらに、包括的な説明可能性分析を実行して、マルチモーダルアプローチにおける共通および固有の機能の解釈を明らかにします。
コードは \url{https://github.com/zhu-xlab/DeCUR} で入手できます。
要約(オリジナル)
The increasing availability of multi-sensor data sparks interest in multimodal self-supervised learning. However, most existing approaches learn only common representations across modalities while ignoring intra-modal training and modality-unique representations. We propose Decoupling Common and Unique Representations (DeCUR), a simple yet effective method for multimodal self-supervised learning. By distinguishing inter- and intra-modal embeddings, DeCUR is trained to integrate complementary information across different modalities. We evaluate DeCUR in three common multimodal scenarios (radar-optical, RGB-elevation, and RGB-depth), and demonstrate its consistent benefits on scene classification and semantic segmentation downstream tasks. Notably, we get straightforward improvements by transferring our pretrained backbones to state-of-the-art supervised multimodal methods without any hyperparameter tuning. Furthermore, we conduct a comprehensive explainability analysis to shed light on the interpretation of common and unique features in our multimodal approach. Codes are available at \url{https://github.com/zhu-xlab/DeCUR}.
arxiv情報
著者 | Yi Wang,Conrad M Albrecht,Nassim Ait Ali Braham,Chenying Liu,Zhitong Xiong,Xiao Xiang Zhu |
発行日 | 2023-09-15 13:39:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google