Sparsely Multimodal Data Fusion

要約

マルチモーダル データ フュージョンは、特に不完全なモダリティや利用可能なモダリティがまばらに存在する場合、多様なデータ ソースの統合を必要とするアプリケーションにとって不可欠です。
このペーパーでは、まばらなマルチモーダル データに対するパフォーマンスを評価するために、モーダル チャネル アテンション (MCA)、Zorro、および Everything at Once (EAO) という 3 つのマルチモーダル埋め込み手法の比較研究を紹介します。
MCA は、入力モダリティのすべての組み合わせに対してフュージョン エンベディングを導入し、アテンション マスキングを使用して個別のアテンション チャネルを作成し、柔軟で効率的なデータ フュージョンを可能にします。
CMU-MOSEI と TCGA という 4 つのモダリティをそれぞれ備えた 2 つのデータセットでの実験では、MCA がランキング、再現率、回帰、分類タスク全体で Zorro よりも優れ、回帰および分類タスク全体で EAO よりも優れていることが実証されました。
MCA は、単峰性埋め込みと融合埋め込み全体で堅牢な均一性を維持することにより、優れたパフォーマンスを実現します。
EAO は、推論後に融合埋め込みを形成するアプローチにより、メトリクスのランク付けでは最高のパフォーマンスを発揮しますが、マルチモーダルなインタラクションを必要とする下流のタスクではパフォーマンスが低下します。
これらの結果は、埋め込み空間を構築する際にすべてのモダリティの組み合わせを対比することの重要性を強調し、不完全なデータを使用する現実世界のアプリケーションのためのマルチモーダル アーキテクチャの設計への洞察を提供します。

要約(オリジナル)

Multimodal data fusion is essential for applications requiring the integration of diverse data sources, especially in the presence of incomplete or sparsely available modalities. This paper presents a comparative study of three multimodal embedding techniques, Modal Channel Attention (MCA), Zorro, and Everything at Once (EAO), to evaluate their performance on sparsely multimodal data. MCA introduces fusion embeddings for all combinations of input modalities and uses attention masking to create distinct attention channels, enabling flexible and efficient data fusion. Experiments on two datasets with four modalities each, CMU-MOSEI and TCGA, demonstrate that MCA outperforms Zorro across ranking, recall, regression, and classification tasks and outperforms EAO across regression and classification tasks. MCA achieves superior performance by maintaining robust uniformity across unimodal and fusion embeddings. While EAO performs best in ranking metrics due to its approach of forming fusion embeddings post-inference, it underperforms in downstream tasks requiring multimodal interactions. These results highlight the importance of contrasting all modality combinations in constructing embedding spaces and offers insights into the design of multimodal architectures for real-world applications with incomplete data.

arxiv情報

著者 Josiah Bjorgaard
発行日 2025-01-02 18:31:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク