Sparse multimodal fusion with modal channel attention

要約

モダリティサンプルがまばらに配置されている場合に、マスクされたマルチモーダルトランスフォーマアーキテクチャがロバストな埋め込み空間を学習する能力は、モーダルスパース度の関数として生成された埋め込み空間の品質を測定することによって研究されます。
モーダル チャネル アテンション (MCA) と呼ばれるマルチヘッド アテンション メカニズムにモーダル不完全チャネルを組み込む、マスクされたマルチモーダル トランスフォーマー モデルの拡張が提案されています。
4 つのモダリティを持つ 2 つのデータセット、マルチモーダル感情認識には CMU-MOSEI、マルチオミクスには TCGA が使用されます。
モデルは、ほとんどのサンプルで 4 つのモダリティのうち 2 つだけを使用して、均一で整列された埋め込み空間を学習することが示されています。
モーダルスパース性がない場合でも、提案された MCA メカニズムにより、生成された埋め込みスペース、リコールメトリクス、およびその後の下流タスクのパフォーマンスの品質が向上することがわかりました。

要約(オリジナル)

The ability of masked multimodal transformer architectures to learn a robust embedding space when modality samples are sparsely aligned is studied by measuring the quality of generated embedding spaces as a function of modal sparsity. An extension to the masked multimodal transformer model is proposed which incorporates modal-incomplete channels in the multihead attention mechanism called modal channel attention (MCA). Two datasets with 4 modalities are used, CMU-MOSEI for multimodal sentiment recognition and TCGA for multiomics. Models are shown to learn uniform and aligned embedding spaces with only two out of four modalities in most samples. It was found that, even with no modal sparsity, the proposed MCA mechanism improves the quality of generated embedding spaces, recall metrics, and subsequent performance on downstream tasks.

arxiv情報

著者 Josiah Bjorgaard
発行日 2024-03-29 16:49:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク