How do Multimodal Foundation Models Encode Text and Speech? An Analysis of Cross-Lingual and Cross-Modal Representations

要約

マルチモーダル基盤モデルは、言語構文やモダリティの違いなどの表面的な特徴を抽象化して、統一された表現空間を作成することを目的としています。
これを調査するために、私たちは 3 つの最近のモデルの内部表現を研究し、テキストおよび音声モダリティにおける言語間で意味的に同等の文からのモデルの活性化を分析しました。
私たちの調査結果では、次のことが明らかになりました。 1) クロスモーダル表現は、テキストと音声処理に特化した初期層を除いて、モデル層全体に収束します。
2) 長さの適応はテキストと音声の間のクロスモーダルギャップを減らすために重要ですが、現在のアプローチの有効性は主に高リソース言語に限定されています。
3) 音声はテキストよりも言語間で大きな差異を示します。
4) モダリティに依存しない表現に対して明示的にトレーニングされていないモデルの場合、モダリティのギャップは言語のギャップよりも顕著です。

要約(オリジナル)

Multimodal foundation models aim to create a unified representation space that abstracts away from surface features like language syntax or modality differences. To investigate this, we study the internal representations of three recent models, analyzing the model activations from semantically equivalent sentences across languages in the text and speech modalities. Our findings reveal that: 1) Cross-modal representations converge over model layers, except in the initial layers specialized at text and speech processing. 2) Length adaptation is crucial for reducing the cross-modal gap between text and speech, although current approaches’ effectiveness is primarily limited to high-resource languages. 3) Speech exhibits larger cross-lingual differences than text. 4) For models not explicitly trained for modality-agnostic representations, the modality gap is more prominent than the language gap.

arxiv情報

著者 Hyunji Lee,Danni Liu,Supriti Sinhamahapatra,Jan Niehues
発行日 2024-11-26 18:29:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク