要約
マルチモーダル融合はマルチモーダルセンチメント分析(MSA)で広く研究されていますが、融合深度とマルチモーダル容量の割り当ての役割は未熟なままです。
この作業では、融合の深さ、スケーラビリティ、および専用のマルチモーダル容量を効果的な融合の主要な要因として配置します。
ディープフュージョンに合わせた学習可能なトークンを備えた新しいマルチモーダル言語モデル(LM)であるDeepMLFを紹介します。
DeepMLFは、視聴覚エンコーダーと、そのレイヤー全体にマルチモーダル情報で拡張された事前に処理されたデコーダーLMを活用します。
学習可能なトークンをLMに追加します。1)制御された方法でモダリティ相互作用をキャプチャし、2)モダリティごとに独立した情報フローを維持します。
これらの融合トークンは、LMブロックでの因果的自己触媒を介して言語情報を収集し、横断的なMMブロックを介して視聴覚情報と統合します。
専用のマルチモーダル容量として機能するこの設計により、複数の層にわたって進行性の融合が可能になり、融合プロセスの深さが提供されます。
トレーニングレシピは、モダリティ固有の損失と言語モデリングの損失を組み合わせており、デコーダーLMはグラウンドトゥルースの極性を予測するように任されています。
DEEPMLFは、さまざまなデータセット特性を備えた3つのMSAベンチマークにまたがり、最先端のパフォーマンスを実現します。
我々の結果は、より深い融合がパフォーマンスの向上につながり、最適な融合深度(5-7)が既存のアプローチの深さを超えることを確認しています。
さらに、フュージョントークンの数に関する分析により、小さなトークンセット($ \ sim $ 20)が最適なパフォーマンスを達成することが明らかになりました。
視聴覚エンコーダーの初期化実験を通じて、表現学習順序(Fusionカリキュラム)の重要性を調べます。
私たちのアブレーション研究は、提案された融合設計とゲーティングの優位性を示し、LLMに対するDeepMLFのスケーラビリティの全体的な調査、および各トレーニング目標と正規化の埋め込みの影響を提供します。
要約(オリジナル)
While multimodal fusion has been extensively studied in Multimodal Sentiment Analysis (MSA), the role of fusion depth and multimodal capacity allocation remains underexplored. In this work, we position fusion depth, scalability, and dedicated multimodal capacity as primary factors for effective fusion. We introduce DeepMLF, a novel multimodal language model (LM) with learnable tokens tailored toward deep fusion. DeepMLF leverages an audiovisual encoder and a pretrained decoder LM augmented with multimodal information across its layers. We append learnable tokens to the LM that: 1) capture modality interactions in a controlled fashion and 2) preserve independent information flow for each modality. These fusion tokens gather linguistic information via causal self-attention in LM Blocks and integrate with audiovisual information through cross-attention MM Blocks. Serving as dedicated multimodal capacity, this design enables progressive fusion across multiple layers, providing depth in the fusion process. Our training recipe combines modality-specific losses and language modelling loss, with the decoder LM tasked to predict ground truth polarity. Across three MSA benchmarks with varying dataset characteristics, DeepMLF achieves state-of-the-art performance. Our results confirm that deeper fusion leads to better performance, with optimal fusion depths (5-7) exceeding those of existing approaches. Additionally, our analysis on the number of fusion tokens reveals that small token sets ($\sim$20) achieve optimal performance. We examine the importance of representation learning order (fusion curriculum) through audiovisual encoder initialization experiments. Our ablation studies demonstrate the superiority of the proposed fusion design and gating while providing a holistic examination of DeepMLF’s scalability to LLMs, and the impact of each training objective and embedding regularization.
arxiv情報
著者 | Efthymios Georgiou,Vassilis Katsouros,Yannis Avrithis,Alexandros Potamianos |
発行日 | 2025-04-15 11:28:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google