要約
人間の知覚は、ビジョン、聴覚、言語などの複数のモダリティを、周囲の現実の統一された理解に統合します。
最近のマルチモーダルモデルは、対照学習を介してモダリティのペアを調整することにより大きな進歩を遂げましたが、複数のモダリティにスケーリングする場合、そのソリューションは不適切です。
これらのモデルは通常、すべてのモダリティの整合性を互いに確実にすることなく、各モダリティを指定されたアンカーに整列させ、複数のモダリティの共同理解を必要とするタスクの最適ではないパフォーマンスにつながります。
この論文では、マルチモーダル学習に対するペアワイズの従来のアプローチを構造的に再考し、上記の制限を克服する新しいグラミアン表現アライメント測定(GRAM)を提示します。
GRAMは、モダリティベクトルに及ぶ$ k $ dimensional ParelalElotopeのグラミア容積を最小限に抑え、すべてのモダリティの幾何学的アライメントを同時に確保することにより、モダリティ埋め込みが嘘をつく高次元空間に$ n $モダリティを直接学習し、整列させます。
グラムは、下流の方法でコサインの類似性を置き換え、2〜 $ n $モダリティを保持し、以前の類似性測定に関してより意味のあるアライメントを提供できます。
新しいグラムベースのコントラスト損失関数は、高次元の埋め込み空間におけるマルチモーダルモデルのアラインメントを強化し、ビデオオーディオテキスト検索やオーディオビデオ分類などの下流タスクで新しい最先端のパフォーマンスをもたらします。
プロジェクトページ、コード、および事前に処理されたモデルは、https://ispamm.github.io/gram/で入手できます。
要約(オリジナル)
Human perception integrates multiple modalities, such as vision, hearing, and language, into a unified understanding of the surrounding reality. While recent multimodal models have achieved significant progress by aligning pairs of modalities via contrastive learning, their solutions are unsuitable when scaling to multiple modalities. These models typically align each modality to a designated anchor without ensuring the alignment of all modalities with each other, leading to suboptimal performance in tasks requiring a joint understanding of multiple modalities. In this paper, we structurally rethink the pairwise conventional approach to multimodal learning and we present the novel Gramian Representation Alignment Measure (GRAM), which overcomes the above-mentioned limitations. GRAM learns and then aligns $n$ modalities directly in the higher-dimensional space in which modality embeddings lie by minimizing the Gramian volume of the $k$-dimensional parallelotope spanned by the modality vectors, ensuring the geometric alignment of all modalities simultaneously. GRAM can replace cosine similarity in any downstream method, holding for 2 to $n$ modalities and providing more meaningful alignment with respect to previous similarity measures. The novel GRAM-based contrastive loss function enhances the alignment of multimodal models in the higher-dimensional embedding space, leading to new state-of-the-art performance in downstream tasks such as video-audio-text retrieval and audio-video classification. The project page, the code, and the pretrained models are available at https://ispamm.github.io/GRAM/.
arxiv情報
著者 | Giordano Cicchetti,Eleonora Grassucci,Luigi Sigillo,Danilo Comminiello |
発行日 | 2025-02-12 13:25:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google