Decoupling Common and Unique Representations for Multimodal Self-supervised Learning

要約

マルチセンサー データの利用可能性が高まるにつれて、マルチモーダル自己教師あり学習に対する幅広い関心が高まっています。
しかし、既存のアプローチのほとんどは、モダリティ間の共通表現のみを学習し、モダリティ内のトレーニングやモダリティ固有の表現を無視しています。
我々は、マルチモーダルな自己教師あり学習のためのシンプルかつ効果的な方法である、Decoupling Common and Unique Representations (DeCUR) を提案します。
DeCUR は、マルチモーダル冗長性削減を通じてモーダル間およびモーダル内の埋め込みを区別することで、さまざまなモダリティにわたる補完的な情報を統合できます。
3 つの一般的なマルチモーダル シナリオ (レーダー光学、RGB 仰角、RGB 深度) で DeCUR を評価し、アーキテクチャやマルチモーダル設定とモダリティ欠落設定の両方に関係なく、一貫した改善が見られることを実証します。
徹底的な実験と包括的な分析により、この研究が貴重な洞察を提供し、マルチモーダル表現の隠れた関係の研究への関心が高まることを願っています。

要約(オリジナル)

The increasing availability of multi-sensor data sparks wide interest in multimodal self-supervised learning. However, most existing approaches learn only common representations across modalities while ignoring intra-modal training and modality-unique representations. We propose Decoupling Common and Unique Representations (DeCUR), a simple yet effective method for multimodal self-supervised learning. By distinguishing inter- and intra-modal embeddings through multimodal redundancy reduction, DeCUR can integrate complementary information across different modalities. We evaluate DeCUR in three common multimodal scenarios (radar-optical, RGB-elevation, and RGB-depth), and demonstrate its consistent improvement regardless of architectures and for both multimodal and modality-missing settings. With thorough experiments and comprehensive analysis, we hope this work can provide valuable insights and raise more interest in researching the hidden relationships of multimodal representations.

arxiv情報

著者 Yi Wang,Conrad M Albrecht,Nassim Ait Ali Braham,Chenying Liu,Zhitong Xiong,Xiao Xiang Zhu
発行日 2024-07-19 13:43:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク