How do Multimodal Foundation Models Encode Text and Speech? An Analysis of Cross-Lingual and Cross-Modal Representations

要約

マルチモーダルファンデーションモデルは、言語の構文やモダリティの違いなどの表面の特徴から抽象化する統一された表現空間を作成することを目的としています。
これを調査するために、最近の3つのモデルの内部表現を研究し、テキストと音声モダリティの言語間で意味的に同等の文章からのモデルの活性化を分析します。
私たちの調査結果は、次のことが明らかになりました。1)クロスモーダル表現は、テキストと音声処理に特化した初期層を除き、モデル層に収束します。
2)長さの適応は、テキストと音声の間の交差点ギャップを減らすために重要ですが、現在のアプローチの有効性は主に高リソース言語に限定されています。
3)スピーチは、テキストよりも大きな言語間の違いを示します。
4)モダリティに依存しない表現のために明示的に訓練されていないモデルの場合、モダリティギャップは言語ギャップよりも顕著です。

要約(オリジナル)

Multimodal foundation models aim to create a unified representation space that abstracts away from surface features like language syntax or modality differences. To investigate this, we study the internal representations of three recent models, analyzing the model activations from semantically equivalent sentences across languages in the text and speech modalities. Our findings reveal that: 1) Cross-modal representations converge over model layers, except in the initial layers specialized at text and speech processing. 2) Length adaptation is crucial for reducing the cross-modal gap between text and speech, although current approaches’ effectiveness is primarily limited to high-resource languages. 3) Speech exhibits larger cross-lingual differences than text. 4) For models not explicitly trained for modality-agnostic representations, the modality gap is more prominent than the language gap.

arxiv情報

著者 Hyunji Lee,Danni Liu,Supriti Sinhamahapatra,Jan Niehues
発行日 2025-02-20 18:04:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク