要約
さまざまなソースからの情報を効果的に組み合わせる融合モデルは、マルチモーダルなタスクの解決に広く使用されています。
ただし、さまざまなモダリティ間でのデータ分布の調整に関して重大な制限があります。
この課題は、堅牢な表現を学習する際に不一致や困難を引き起こす可能性があります。
アライメント モデルは、特にこの問題に対処していますが、最適な結果を得るには、多くの場合、大規模なデータセットを使用して「最初から」トレーニングする必要があり、リソースと時間の面でコストがかかる可能性があります。
これらの制限を克服するために、モダリティ融合とデータ分散調整の両方を組み合わせた、コンテキストベース マルチモーダル フュージョン (CBMF) と呼ばれる革新的なモデルを提案します。
CBMF では、各モダリティは、各モダリティの埋め込みと融合された特定のコンテキスト ベクトルによって表されます。
これにより、凍結可能な大規模な事前トレーニング済みモデルの使用が可能になり、計算およびトレーニング データの要件が軽減されます。
さらに、ネットワークはコンテキストとの融合を通じてさまざまなモダリティの埋め込みを区別することを学習し、自己教師あり学習の対照的なアプローチを使用してデータ分布を調整します。
したがって、CBMF は、複雑なマルチモーダルなタスクを解決するための効果的かつ経済的なソリューションを提供します。
要約(オリジナル)
The fusion models, which effectively combine information from different sources, are widely used in solving multimodal tasks. However, they have significant limitations related to aligning data distributions across different modalities. This challenge can lead to inconsistencies and difficulties in learning robust representations. Alignment models, while specifically addressing this issue, often require training ‘from scratch’ with large datasets to achieve optimal results, which can be costly in terms of resources and time. To overcome these limitations, we propose an innovative model called Context-Based Multimodal Fusion (CBMF), which combines both modality fusion and data distribution alignment. In CBMF, each modality is represented by a specific context vector, fused with the embedding of each modality. This enables the use of large pre-trained models that can be frozen, reducing the computational and training data requirements. Additionally, the network learns to differentiate embeddings of different modalities through fusion with context and aligns data distributions using a contrastive approach for self-supervised learning. Thus, CBMF offers an effective and economical solution for solving complex multimodal tasks.
arxiv情報
著者 | Bilal Faye,Hanane Azzag,Mustapha Lebbah,Djamel Bouchaffra |
発行日 | 2024-03-07 16:50:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google