One-Versus-Others Attention: Scalable Multimodal Integration

要約

マルチモーダル学習モデルは、質問応答から自動運転に至るまで、さまざまなタスクにおいて単一モーダルのアプローチを超えるため、ますます重要になっています。
マルチモーダル学習の重要性にもかかわらず、既存の取り組みは NLP アプリケーションに焦点を当てており、通常、モダリティの数は 4 つ未満 (音声、ビデオ、テキスト、画像) です。
ただし、医療分野などの他の領域でのデータ入力には、X 線、PET スキャン、MRI、遺伝子スクリーニング、臨床記録などが含まれる場合があり、効率的かつ正確な情報融合の必要性が生じています。
多くの最先端モデルは、ペアごとのクロスモーダル アテンションに依存しており、3 つ以上のモダリティを持つアプリケーションにはうまく拡張できません。
$n$ モダリティの場合、計算の注意により $n \choose 2$ 操作が発生し、かなりの量の計算リソースが必要になる可能性があります。
これに対処するために、私たちは、モダリティの数に比例して拡張し、$n$ のアテンション操作のみを必要とする、新しいドメイン中立的なアテンション メカニズムである One-Versus-Others (OvO) アテンションを提案します。
既存のクロスモーダル アテンション アルゴリズムに適用されます。
3 つの多様な現実世界のデータセットと追加のシミュレーション実験を使用して、私たちの手法が一般的な融合手法と比較してパフォーマンスを向上させながら、計算コストを削減できることを示します。

要約(オリジナル)

Multimodal learning models have become increasingly important as they surpass single-modality approaches on diverse tasks ranging from question-answering to autonomous driving. Despite the importance of multimodal learning, existing efforts focus on NLP applications, where the number of modalities is typically less than four (audio, video, text, images). However, data inputs in other domains, such as the medical field, may include X-rays, PET scans, MRIs, genetic screening, clinical notes, and more, creating a need for both efficient and accurate information fusion. Many state-of-the-art models rely on pairwise cross-modal attention, which does not scale well for applications with more than three modalities. For $n$ modalities, computing attention will result in $n \choose 2$ operations, potentially requiring considerable amounts of computational resources. To address this, we propose a new domain-neutral attention mechanism, One-Versus-Others (OvO) attention, that scales linearly with the number of modalities and requires only $n$ attention operations, thus offering a significant reduction in computational complexity compared to existing cross-modal attention algorithms. Using three diverse real-world datasets as well as an additional simulation experiment, we show that our method improves performance compared to popular fusion techniques while decreasing computation costs.

arxiv情報

著者 Michal Golovanevsky,Eva Schiller,Akira Nair,Ritambhara Singh,Carsten Eickhoff
発行日 2023-07-11 16:57:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク