Gramian Multimodal Representation Learning and Alignment

要約

人間の知覚は、視覚、聴覚、言語などの複数のモダリティを統合して、周囲の現実を統一的に理解します。
最近のマルチモーダル モデルは、対照学習によってモダリティのペアを調整することで大きな進歩を遂げていますが、そのソリューションは複数のモダリティに拡張する場合には適していません。
これらのモデルは通常、すべてのモダリティを相互に整合させることを保証せずに、各モダリティを指定されたアンカーに整合させるため、複数のモダリティを共同で理解する必要があるタスクでは最適なパフォーマンスが得られません。
この論文では、マルチモーダル学習に対するペアワイズの従来のアプローチを構造的に再考し、上記の制限を克服する新しいグラミアン表現アライメント測定 (GRAM) を紹介します。
GRAMは、モダリティベクトルが広がる$k$次元平行面のグラミアン体積を最小化することにより、モダリティの埋め込みが存在する高次元空間内で直接$n$モダリティを学習して位置合わせし、すべてのモダリティの幾何学的位置合わせを同時に保証します。
GRAM は、任意の下流メソッドのコサイン類似度を置き換えることができ、2 から $n$ モダリティを保持し、以前の類似度測定に関してより意味のある調整を提供します。
新しい GRAM ベースのコントラスト損失関数は、高次元の埋め込み空間におけるマルチモーダル モデルの位置合わせを強化し、ビデオ/オーディオ/テキストの検索やオーディオ/ビデオの分類などの下流タスクでの新しい最先端のパフォーマンスにつながります。
プロジェクト ページ、コード、および事前トレーニングされたモデルは、https://ispamm.github.io/GRAM/ で入手できます。

要約(オリジナル)

Human perception integrates multiple modalities, such as vision, hearing, and language, into a unified understanding of the surrounding reality. While recent multimodal models have achieved significant progress by aligning pairs of modalities via contrastive learning, their solutions are unsuitable when scaling to multiple modalities. These models typically align each modality to a designated anchor without ensuring the alignment of all modalities with each other, leading to suboptimal performance in tasks requiring a joint understanding of multiple modalities. In this paper, we structurally rethink the pairwise conventional approach to multimodal learning and we present the novel Gramian Representation Alignment Measure (GRAM), which overcomes the above-mentioned limitations. GRAM learns and then aligns $n$ modalities directly in the higher-dimensional space in which modality embeddings lie by minimizing the Gramian volume of the $k$-dimensional parallelotope spanned by the modality vectors, ensuring the geometric alignment of all modalities simultaneously. GRAM can replace cosine similarity in any downstream method, holding for 2 to $n$ modality and providing more meaningful alignment with respect to previous similarity measures. The novel GRAM-based contrastive loss function enhances the alignment of multimodal models in the higher-dimensional embedding space, leading to new state-of-the-art performance in downstream tasks such as video-audio-text retrieval and audio-video classification. The project page, the code, and the pretrained models are available at https://ispamm.github.io/GRAM/.

arxiv情報

著者 Giordano Cicchetti,Eleonora Grassucci,Luigi Sigillo,Danilo Comminiello
発行日 2024-12-16 16:41:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク